數(shù)據(jù)湖是指使用大型二進(jìn)制對(duì)象或文件這樣的自然格式儲(chǔ)存數(shù)據(jù)的系統(tǒng)。
它通常把企業(yè)所有的數(shù)據(jù)統(tǒng)一存儲(chǔ),既包括源系統(tǒng)中的原始副本,也包括轉(zhuǎn)換后的數(shù)據(jù),比如那些用于報(bào)表, 可視化, 數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的數(shù)據(jù)。數(shù)據(jù)湖可以包括關(guān)系數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)(行與列)、半結(jié)構(gòu)化的數(shù)據(jù)(CSV/日志/XML/JSON),非結(jié)構(gòu)化數(shù)據(jù) (電子郵件/文件/PDF)和 二進(jìn)制數(shù)據(jù)(圖像/音頻/視頻)。
數(shù)據(jù)湖的本質(zhì)包含四個(gè)標(biāo)準(zhǔn):1. 統(tǒng)一的存儲(chǔ)系統(tǒng);2. 存儲(chǔ)原始數(shù)據(jù);3. 豐富的計(jì)算模型/范式;4. 數(shù)據(jù)湖與上云無(wú)關(guān)。這四個(gè)標(biāo)準(zhǔn)來(lái)判斷,開源大數(shù)據(jù)的Hadoop HDFS存儲(chǔ)系統(tǒng)就是一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)湖架構(gòu),具備統(tǒng)一的原始數(shù)據(jù)存儲(chǔ)架構(gòu)。