成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Data Lakehouse數(shù)據(jù)湖到底是什么呢?

Tecode / 2230人閱讀

摘要:數(shù)據(jù)湖通常更大,其存儲成本也更為廉價。高存儲成本數(shù)倉和數(shù)據(jù)湖都是為了降低數(shù)據(jù)存儲的成本。數(shù)據(jù)停滯在數(shù)據(jù)湖中,數(shù)據(jù)停滯是一個最為嚴重的問題,如果數(shù)據(jù)一直無人治理,那將很快變?yōu)閿?shù)據(jù)沼澤。

數(shù)據(jù)湖(Data Lake),湖倉一體(Data Lakehouse)儼然已經(jīng)成為了大數(shù)據(jù)領(lǐng)域最為火熱的流行詞,在接受這些流行詞洗禮的時候,身為技術(shù)人員我們往往會發(fā)出這樣的疑問,這是一種新的技術(shù)嗎,還是僅僅只是概念上的翻新(新瓶裝舊酒)呢?它到底解決了什么問題,擁有什么樣新的特性呢?它的現(xiàn)狀是什么,還存在什么問題呢?

帶著這些問題,今天就從筆者的理解,為大家揭開 Data Lakehouse 的神秘面紗,來探一探其技術(shù)的本質(zhì)到底是什么?

Data Lakehouse(湖倉一體)是新出現(xiàn)的一種數(shù)據(jù)架構(gòu),它同時吸收了數(shù)據(jù)倉庫和數(shù)據(jù)湖的優(yōu)勢,數(shù)據(jù)分析師和數(shù)據(jù)科學家可以在同一個數(shù)據(jù)存儲中對數(shù)據(jù)進行操作,同時它也能為公司進行數(shù)據(jù)治理帶來更多的便利性。那么何為Data Lakehouse呢,它具備些什么特性呢?

本文參考自 https://www.xplenty.com/glossary/what-is-a-data-lakehouse/https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
Data Lakehouse具備什么特性?
一直以來,我們都在使用兩種數(shù)據(jù)存儲方式來架構(gòu)數(shù)據(jù):

數(shù)據(jù)倉庫:數(shù)倉這樣的一種數(shù)據(jù)存儲架構(gòu),它主要存儲的是以關(guān)系型數(shù)據(jù)庫組織起來的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)通過轉(zhuǎn)換、整合以及清理,并導入到目標表中。在數(shù)倉中,數(shù)據(jù)存儲的結(jié)構(gòu)與其定義的schema是強匹配的。
數(shù)據(jù)湖:數(shù)據(jù)湖這樣的一種數(shù)據(jù)存儲結(jié)構(gòu),它可以存儲任何類型的數(shù)據(jù),包括像圖片、文檔這樣的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖通常更大,其存儲成本也更為廉價。存儲其中的數(shù)據(jù)不需要滿足特定的schema,數(shù)據(jù)湖也不會嘗試去將特定的schema施行其上。相反的是,數(shù)據(jù)的擁有者通常會在讀取數(shù)據(jù)的時候解析schema(schema-on-read),當處理相應(yīng)的數(shù)據(jù)時,將轉(zhuǎn)換施加其上。

現(xiàn)在許多的公司往往同時會搭建數(shù)倉、數(shù)據(jù)湖這兩種存儲架構(gòu),一個大的數(shù)倉和多個小的數(shù)據(jù)湖。這樣,數(shù)據(jù)在這兩種存儲中就會有一定的冗余。

Data Lakehouse的出現(xiàn)試圖去融合數(shù)倉和數(shù)據(jù)湖這兩者之間的差異,通過將數(shù)倉構(gòu)建在數(shù)據(jù)湖上,使得存儲變得更為廉價和彈性,同時lakehouse能夠有效地提升數(shù)據(jù)質(zhì)量,減小數(shù)據(jù)冗余。在lakehouse的構(gòu)建中,ETL起了非常重要的作用,它能夠?qū)⑽唇?jīng)規(guī)整的數(shù)據(jù)湖層數(shù)據(jù)轉(zhuǎn)換成數(shù)倉層結(jié)構(gòu)化的數(shù)據(jù)。Data Lakehouse概念是由Databricks在此文[1]中提出的,在提出概念的同時,也列出了如下一些特性:

事務(wù)支持:Lakehouse可以處理多條不同的數(shù)據(jù)管道。這意味著它可以在不破壞數(shù)據(jù)完整性的前提下支持并發(fā)的讀寫事務(wù)。

Schemas:數(shù)倉會在所有存儲其上的數(shù)據(jù)上施加Schema,而數(shù)據(jù)湖則不會。Lakehouse的架構(gòu)可以根據(jù)應(yīng)用的需求為絕大多數(shù)的數(shù)據(jù)施加schema,使其標準化。

報表以及分析應(yīng)用的支持:報表和分析應(yīng)用都可以使用這一存儲架構(gòu)。Lakehouse里面所保存的數(shù)據(jù)經(jīng)過了清理和整合的過程,它可以用來加速分析。同時相比于數(shù)倉,它能夠保存更多的數(shù)據(jù),數(shù)據(jù)的時效性也會更高,能顯著提升報表的質(zhì)量。

數(shù)據(jù)類型擴展:數(shù)倉僅可以支持結(jié)構(gòu)化數(shù)據(jù),而Lakehouse的結(jié)構(gòu)可以支持更多不同類型的數(shù)據(jù),包括文件、視頻、音頻和系統(tǒng)日志。

端到端的流式支持:Lakehouse可以支持流式分析,從而能夠滿足實時報表的需求,實時報表在現(xiàn)在越來越多的企業(yè)中重要性在逐漸提高。

計算存儲分離:我們往往使用低成本硬件和集群化架構(gòu)來實現(xiàn)數(shù)據(jù)湖,這樣的架構(gòu)提供了非常廉價的分離式存儲。Lakehouse是構(gòu)建在數(shù)據(jù)湖之上的,因此自然也采用了存算分離的架構(gòu),數(shù)據(jù)存儲在一個集群中,而在另一個集群中進行處理。

開放性:Lakehouse在其構(gòu)建中通常會使Iceberg,Hudi,Delta Lake等構(gòu)建組件,首先這些組件是開源開放的,其次這些組件采用了Parquet,ORC這樣開放兼容的存儲格式作為下層的數(shù)據(jù)存儲格式,因此不同的引擎,不同的語言都可以在Lakehouse上進行操作。
Lakehouse的概念最早是由Databricks所提出的,而其他的類似的產(chǎn)品有Azure Synapse Analytics。Lakehouse技術(shù)仍然在發(fā)展中,因此上面所述的這些特性也會被不斷的修訂和改進。

Data lakehouse解決了什么問題

那說完了Data Lakehouse的特性,它到底解決了什么問題呢?

這些年來,在許多的公司里,數(shù)倉和數(shù)據(jù)湖一直并存且各自發(fā)展著,也沒有遇到過太過嚴重的問題。但是仍有一些領(lǐng)域有值得進步的空間,比如:

數(shù)據(jù)重復性:如果一個組織同時維護了一個數(shù)據(jù)湖和多個數(shù)倉,這無疑會帶來數(shù)據(jù)冗余。在最好的情況下,這僅僅只會帶來數(shù)據(jù)處理的不高效,但是在最差的情況下,它會導致數(shù)據(jù)不一致的情況出現(xiàn)。Data Lakehouse統(tǒng)一了一切,它去除了數(shù)據(jù)的重復性,真正做到了Single Version of Truth。

高存儲成本:數(shù)倉和數(shù)據(jù)湖都是為了降低數(shù)據(jù)存儲的成本。數(shù)倉往往是通過降低冗余,以及整合異構(gòu)的數(shù)據(jù)源來做到降低成本。而數(shù)據(jù)湖則往往使用大數(shù)據(jù)文件系統(tǒng)(譬如Hadoop HDFS)和Spark在廉價的硬件上存儲計算數(shù)據(jù)。而最為廉價的方式是結(jié)合這些技術(shù)來降低成本,這就是現(xiàn)在Lakehouse架構(gòu)的目標。

報表和分析應(yīng)用之間的差異:報表分析師們通常傾向于使用整合后的數(shù)據(jù),比如數(shù)倉或是數(shù)據(jù)集市。而數(shù)據(jù)科學家則更傾向于同數(shù)據(jù)湖打交道,使用各種分析技術(shù)來處理未經(jīng)加工的數(shù)據(jù)。在一個組織內(nèi),往往這兩個團隊之間沒有太多的交集,但實際上他們之間的工作又有一定的重復和矛盾。而當使用Data Lakehouse后,兩個團隊可以在同一數(shù)據(jù)架構(gòu)上進行工作,避免不必要的重復。

數(shù)據(jù)停滯(Data stagnation):在數(shù)據(jù)湖中,數(shù)據(jù)停滯是一個最為嚴重的問題,如果數(shù)據(jù)一直無人治理,那將很快變?yōu)閿?shù)據(jù)沼澤。我們往往輕易的將數(shù)據(jù)丟入湖中,但缺乏有效的治理,長此以往,數(shù)據(jù)的時效性變得越來越難追溯。Lakehouse的引入,對于海量數(shù)據(jù)進行catalog,能夠更有效地幫助提升分析數(shù)據(jù)的時效性。

潛在不兼容性帶來的風險:數(shù)據(jù)分析仍是一門興起的技術(shù),新的工具和技術(shù)每年仍在不停地出現(xiàn)中。一些技術(shù)可能只和數(shù)據(jù)湖兼容,而另一些則又可能只和數(shù)倉兼容。Lakehouse靈活的架構(gòu)意味著公司可以為未來做兩方面的準備。

Data Lakehouse存在的問題 現(xiàn)有的Lakehouse架構(gòu)仍存在著一些問題,其中最為顯著的是:

大一統(tǒng)的架構(gòu):Lakehouse大一統(tǒng)的架構(gòu)有許多的優(yōu)點,但也會引入一些問題。通常,大一統(tǒng)的架構(gòu)缺乏靈活性,難于維護,同時難以滿足所有用戶的需求,架構(gòu)師通常更傾向于使用多模的架構(gòu),為不同的場景定制不同的范式。

并非現(xiàn)有架構(gòu)上本質(zhì)的改進:現(xiàn)在對于Lakehouse是否真的能夠帶來額外的價值仍存在疑問。同時,也有不同的意見 - 將現(xiàn)有的數(shù)倉、數(shù)據(jù)湖結(jié)構(gòu)與合適的工具結(jié)合 - 是否會帶來類似的效率呢?

技術(shù)尚未成熟:Lakehouse技術(shù)當前尚未成熟,在達到上文所提的能力之前仍有較長的路要走。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/125906.html

相關(guān)文章

  • 什么我們需要數(shù)據(jù)?

    摘要:近兩年,為什么都開始談?wù)撈疬@個新名詞了先說我的想法,其實還是用戶需求驅(qū)動數(shù)據(jù)服務(wù),大家開始關(guān)注的根本原因是用戶需求發(fā)生了質(zhì)變,過去的數(shù)據(jù)倉庫模式以及涉及到的相關(guān)組件沒有辦法滿足日益進步的用戶需求。近兩年,為什么都開始談?wù)撈?Data Lake 這個新名詞了?先說我的想法,其實還是用戶需求驅(qū)動數(shù)據(jù)服務(wù),大家開始關(guān)注 Data Lake 的根本原因是用戶需求發(fā)生了質(zhì)變,過去的數(shù)據(jù)倉庫模式以及涉及...

    Tecode 評論0 收藏0
  • 孔明說天有不測風云,我說無災(zāi)備不上云

    摘要:題記三國時赤壁鏖戰(zhàn),孔明說,天有不測風云,欲破曹公,宜用火攻,萬事俱備,只欠東風?,F(xiàn)在公共云混戰(zhàn),我想說,無災(zāi)備不上云,保護數(shù)據(jù),未雨綢繆,帶了雨傘,還需雨衣。題記:三國時赤壁鏖戰(zhàn),孔明說,天有不測風云,欲破曹公,宜用火攻,萬事俱備,只欠東風。現(xiàn)在公共云混戰(zhàn),我想說,無災(zāi)備不上云,保護數(shù)據(jù),未雨綢繆,帶了雨傘,還需雨衣。未雨綢繆,到底是帶雨傘還是雨衣呢?時代在變,人的追求也在變。隨著公共云對...

    stormgens 評論0 收藏0
  • 數(shù)據(jù)數(shù)據(jù)倉庫的區(qū)別

    1、數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)倉庫只能存儲經(jīng)過處理和提煉的數(shù)據(jù),而數(shù)據(jù)湖存儲尚未出于某種目的處理的原始數(shù)據(jù)。因此,數(shù)據(jù)湖需要比數(shù)據(jù)倉庫大得多的存儲容量,且數(shù)據(jù)靈活、分析迅速,非常適合機器學習。2、加工:數(shù)據(jù)倉庫使用寫入時序模式的方法來處理數(shù)據(jù)以賦予其形狀和結(jié)構(gòu),而數(shù)據(jù)湖對原始數(shù)據(jù)使用讀取模式來處理它。3、成本:存儲在數(shù)據(jù)倉庫中的成本可能很高,尤其是在有大量數(shù)據(jù)的情況下,而數(shù)據(jù)湖是專為低成本數(shù)據(jù)存儲而設(shè)計,成本...

    白馬嘯西風 評論0 收藏0
  • 人手一份的城市道路名稱圖鑒——Python爬取20w+中國城市道路名數(shù)據(jù)之后

    摘要:哪些省份省級行政單位使用了最多的其它省份名作為道路名的呢山東省穩(wěn)居第一,總共使用了全國全部的省自治區(qū)直轄市特別行政區(qū)名共個。太平路排名第一。根據(jù)周圍的地理事物為道路命名,也是道路命名的一個習慣。帶有海字的路名,集中分布在東部沿海城市中。 showImg(https://segmentfault.com/img/remote/1460000019921753); 作者 | AlfredW...

    weizx 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<