摘要:如果我們可以克服一些數(shù)據(jù)遷移的挑戰(zhàn),將一個數(shù)據(jù)倉庫以及其數(shù)據(jù)分析工具從數(shù)據(jù)中心中的專用服務(wù)器轉(zhuǎn)移到基于云的文件系統(tǒng)和數(shù)據(jù)庫就可以解決這個問題。數(shù)據(jù)遷移工具輔助向云端遷移從數(shù)據(jù)庫抽取數(shù)據(jù)很容易,從數(shù)據(jù)庫中有效挖掘大容量數(shù)據(jù)確是一項挑戰(zhàn)。
云計算和數(shù)據(jù)倉庫是合理的一對。云存儲可以按需擴(kuò)展,云可以將大量服務(wù)器貢獻(xiàn)于某一具體任務(wù)。數(shù)據(jù)倉庫通用功能是本地數(shù)據(jù)分析工具,受到計算和存儲 資源的限制,同時也受到設(shè)計者考慮新數(shù)據(jù)源集成的能力的限制。如果我們可以克服一些數(shù)據(jù)遷移的挑戰(zhàn),將一個數(shù)據(jù)倉庫以及其數(shù)據(jù)分析工具從數(shù)據(jù)中心中的專用 服務(wù)器轉(zhuǎn)移到基于云的文件系統(tǒng)和數(shù)據(jù)庫就可以解決這個問題。
云端數(shù)據(jù)管理通常牽扯到在分布式文件系統(tǒng)中加載和維護(hù)文件,像Hadoop分布式文件系統(tǒng)(HDFS),隨后用類似MapReduce這樣的工具處理數(shù)據(jù)。對于數(shù)據(jù)倉庫和其他的分析人物,像Hive這樣的數(shù)據(jù)庫工具在分布式文件系統(tǒng)之上提供了類SQL的功能。
盡管傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)和云端非關(guān)系型數(shù)據(jù)庫之間可以并行描述,但是在兩個片段之間轉(zhuǎn)移數(shù)據(jù)時,不同的運(yùn)行方式會導(dǎo)致問題。抽取、轉(zhuǎn)換和加載流程甚至?xí)斐筛嗵魬?zhàn)。
數(shù)據(jù)遷移工具輔助向云端遷移
從數(shù)據(jù)庫抽取數(shù)據(jù)很容易,從數(shù)據(jù)庫中有效挖掘大容量數(shù)據(jù)確是一項挑戰(zhàn)。如果由于數(shù)據(jù)量的增長,數(shù)據(jù)倉庫面臨性能或者存儲問題,可能就是時候考慮使用運(yùn)資源了。下面提供了一些工具來協(xié)助從關(guān)系型數(shù)據(jù)庫加載數(shù)據(jù)到云文件系統(tǒng)和數(shù)據(jù)庫。
專業(yè)工具,像Sqoop(SQL-to-Hadoop)生成代碼從關(guān)系型數(shù)據(jù)庫抽取數(shù)據(jù),并將其拷貝到HDFS或者Hive。Sqoop使用JDBC驅(qū)動,同多種類型的關(guān)系型數(shù)據(jù)庫工作,但是通過JDBC推出大量數(shù)據(jù)導(dǎo)致了性能成本。
為了遷移到云端,從關(guān)系型數(shù)據(jù)庫抽取數(shù)據(jù)時,你可能需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換。如果你所工作的所有數(shù)據(jù)來自于單一數(shù)據(jù)庫,就可以在源數(shù)據(jù)庫中進(jìn)行轉(zhuǎn)換。如果 從兩個分離的系統(tǒng)合并數(shù)據(jù),在抽取之后再轉(zhuǎn)移數(shù)據(jù)源更有效。然而,你應(yīng)該在加載數(shù)據(jù)到最終數(shù)據(jù)存儲庫之前做這些。Cascading數(shù)據(jù)處理API可以協(xié) 助這項任務(wù)的進(jìn)行。
Cascading提供了運(yùn)行在Hadoop之上的功能,像工作流處理、計劃和調(diào)度。就比如說,它同管道過濾器工作;數(shù)據(jù)應(yīng)用過濾器通過管道從一個 源流到目的源。其他功能像grouping可以應(yīng)用于數(shù)據(jù)流。Cascading用Java實(shí)現(xiàn),在MapReduce工作中調(diào)用轉(zhuǎn)換API。
如果你正在同MySQL共事,Sqoop介意使用MySQL轉(zhuǎn)儲功能繞離JDBC并更加有效地抽取數(shù)據(jù)。Sqoop也可以生成Java類,這個類可 以用于操縱加載數(shù)據(jù)并將其直接導(dǎo)入Hive。HIHO (Hadoop Input and Output)從關(guān)系型表抽取數(shù)據(jù)并提供一些基本的轉(zhuǎn)換服務(wù),像去重以及合并輸入流。
當(dāng)生成文件在將其加載到HDFS文件系統(tǒng)或者Hive數(shù)據(jù)倉庫之前,要求最小化轉(zhuǎn)換,你就能直接加載文件了。在確定目標(biāo)表和分割規(guī)格后,Hive有 一個命令來加載數(shù)據(jù)。Pig是數(shù)據(jù)分析程序的一種高水平語言,尤其是和Java中的MapReduce編碼對比的時候。它提供了一種基本的統(tǒng)計函數(shù),你可 以在關(guān)系型數(shù)據(jù)庫中找到(像min、max、count),在數(shù)學(xué)和字符串處理功能中也能找到。Pig支持架構(gòu)化和非結(jié)構(gòu)化文本文件的壓縮。
云計算資源補(bǔ)充了數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)。然而,為將數(shù)據(jù)倉庫轉(zhuǎn)移到云端的利益較大化,適當(dāng)結(jié)構(gòu)化數(shù)據(jù)并使用正確的數(shù)據(jù)分析工具很重要。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/3563.html
摘要:如果我們可以克服一些數(shù)據(jù)遷移的挑戰(zhàn),將一個數(shù)據(jù)倉庫以及其數(shù)據(jù)分析工具從數(shù)據(jù)中心中的專用服務(wù)器轉(zhuǎn)移到基于云的文件系統(tǒng)和數(shù)據(jù)庫就可以解決這個問題。數(shù)據(jù)遷移工具輔助向云端遷移從數(shù)據(jù)庫抽取數(shù)據(jù)很容易,從數(shù)據(jù)庫中有效挖掘大容量數(shù)據(jù)確是一項挑戰(zhàn)。 云計算和數(shù)據(jù)倉庫是合理的一對。云存儲可以按需擴(kuò)展,云可以將大量服務(wù)器貢獻(xiàn)于某一具體任務(wù)。數(shù)據(jù)倉庫通用功能是本地數(shù)據(jù)分析工具,受到計算和存儲資源的限制,同時也受...
摘要:但是,雖然解決備份和災(zāi)難恢復(fù)問題的答案已經(jīng)改變,但這些關(guān)鍵問題仍然存在,并且在考慮云中的備份和恢復(fù)時,企業(yè)仍面臨著五大挑戰(zhàn)。一旦到位,企業(yè)將如何管理基于云計算的備份和災(zāi)難恢復(fù)準(zhǔn)備備份和災(zāi)難恢復(fù)到云端的最后挑戰(zhàn)是持續(xù)管理。Iland公司自從11年前開始提供服務(wù)以來,云計算的災(zāi)難恢復(fù)和備份服務(wù)幾乎沒有什么改變。如今,業(yè)務(wù)環(huán)境更加復(fù)雜,云采用已經(jīng)成為主流,監(jiān)管環(huán)境與10年前相比已大相徑庭。但是,雖...
摘要:雖然分析機(jī)構(gòu)的看法各不相同,但公司產(chǎn)品副總裁分享了他對未來幾年企業(yè)如何進(jìn)入和應(yīng)用云計算環(huán)境的預(yù)測。無論如何,企業(yè)的業(yè)務(wù)向云端遷移仍將繼續(xù)實(shí)施,但大多數(shù)企業(yè)肯定不會在短短六年時間內(nèi)部署基于云計算的戰(zhàn)略。如今,許多企業(yè)在云端運(yùn)營業(yè)務(wù),以利用這些環(huán)境中提供的可擴(kuò)展性和靈活性。研究機(jī)構(gòu)Gartner公司預(yù)測,隨著越來越多的組織將業(yè)務(wù)遷移到云端,到2025年,80%的企業(yè)將不再運(yùn)行其內(nèi)部部署數(shù)據(jù)中心。...
摘要:事實(shí)上,云計算應(yīng)用的快速增長正在徹底改變?nèi)蚴袌龊突A(chǔ)設(shè)施的發(fā)展趨勢。在調(diào)查中,只有的受訪者認(rèn)為自己最終對云計算服務(wù)中存儲的數(shù)據(jù)的合規(guī)性負(fù)責(zé)。云計算服務(wù)提供商的服務(wù)級別協(xié)議不包括數(shù)據(jù)保護(hù)。如今,只要人們了解一下云計算市場,可以看到其發(fā)展非常健康。事實(shí)上,云計算應(yīng)用的快速增長正在徹底改變?nèi)蚴袌龊虸T基礎(chǔ)設(shè)施的發(fā)展趨勢。云計算正在改變?nèi)藗冊谄髽I(yè)所有職能上的工作方式。從公司辦公室到工廠車間,從分...
摘要:但公共云可以帶來的靈活性意味著業(yè)務(wù)需求越來越強(qiáng)大,那么企業(yè)面臨的挑戰(zhàn)是什么以及如何克服這些挑戰(zhàn),以便采用公共云存儲成為企業(yè)的選擇面臨的挑戰(zhàn)重力數(shù)據(jù)具有批量大小和重量。行業(yè)專家最近與一家大型企業(yè)的技術(shù)團(tuán)隊討論云計算策略,其中一個主要關(guān)注點(diǎn)是使用公共云存儲。他們認(rèn)為公共云存儲提供了靈活性、敏捷性,以及分散風(fēng)險的機(jī)會,并且可以擺脫服務(wù)提供商的鎖定。但很多企業(yè)表示正在面臨重大挑戰(zhàn),這并不罕見。雖然云...
閱讀 2167·2023-04-26 02:19
閱讀 1951·2021-11-19 09:40
閱讀 1735·2021-09-29 09:35
閱讀 3598·2021-09-29 09:34
閱讀 4405·2021-09-07 10:16
閱讀 5611·2021-08-11 11:14
閱讀 3612·2019-08-30 15:54
閱讀 1655·2019-08-30 15:53