Apache Sqoop：云端大數(shù)據(jù)分析的關(guān)鍵一環(huán)

ShevaKuilin 發(fā)布于2019-04-25 17:39 / 2476人閱讀

摘要：，類似于其他工具，使用元數(shù)據(jù)模型來判斷數(shù)據(jù)類型并在數(shù)據(jù)從數(shù)據(jù)源轉(zhuǎn)移到時確保類型安全的數(shù)據(jù)處理。默認情況下的并行意味著假設(shè)大數(shù)據(jù)是在分區(qū)鍵范圍內(nèi)均勻分布的。直接驅(qū)動需要特權(quán)來讀取類似和這樣的元數(shù)據(jù)。

Hadoop正成為企業(yè)用于大數(shù)據(jù)分析的最熱門選擇，但想將你的數(shù)據(jù)移植過去并不容易。Apache Sqoop正在加緊幫助客戶將重要數(shù)據(jù)從數(shù)據(jù)庫移到Hadoop。

正當(dāng)大數(shù)據(jù)變得越來越重要，而越來越多應(yīng)用都在云上部署時，云管理員也面臨了不斷增長的將數(shù)據(jù)從源系統(tǒng)轉(zhuǎn)移到分析系統(tǒng)——其中最熱門的就是Hadoop——的需求。ETL工具的自定義腳本在過去輔助了這種數(shù)據(jù)遷移，現(xiàn)在Apache Sqoop正崛起成為更好的選擇。

隨著Hadoop和關(guān)系型數(shù)據(jù)庫之間的數(shù)據(jù)移動漸漸變成一個標(biāo)準的流程，云管理員們能夠利用Sqoop的并行批量數(shù)據(jù)加載能力來簡化這一流程，降低編寫自定義數(shù)據(jù)加載腳本的需求。

Apache Sqoop是一個將數(shù)據(jù)在關(guān)系數(shù)據(jù)庫及Hadoop之間轉(zhuǎn)移的命令行工具。對于某些NoSQL數(shù)據(jù)庫它也提供了連接器。Sqoop，類似于其他ETL工具，使用元數(shù)據(jù)模型來判斷數(shù)據(jù)類型并在數(shù)據(jù)從數(shù)據(jù)源轉(zhuǎn)移到Hadoop時確保類型安全的數(shù)據(jù)處理。Sqoop專為大數(shù)據(jù)批量傳輸設(shè)計，能夠分割數(shù)據(jù)集并創(chuàng)建Hadoop任務(wù)來處理每個區(qū)塊。

Sqoop有一個非常小的命令集，里面包括導(dǎo)入和導(dǎo)出，列出數(shù)據(jù)庫和表信息，生成Java類來操縱數(shù)據(jù)，解析SQL命令以及其他一些更專門的命令。生成Java類的命令對于在Hadoop里編寫Java應(yīng)用來進行數(shù)據(jù)操作特別有用。SQL解析命令可以顯示執(zhí)行SQL語句的結(jié)果，這在搜索新數(shù)據(jù)庫或產(chǎn)生復(fù)雜邏輯的查詢時非常有用。

使用Sqoop比自定義腳本有一定的優(yōu)勢。其一就是，Sqoop被設(shè)計成具備容錯性。你也可以自定義腳本來監(jiān)控你的工作狀態(tài)，然后從故障中恢復(fù)，但是那有可能難以置信的耗時。

使用Sqoop需要注意的地方

盡管有以上的優(yōu)點，在使用Sqoop的時候還有一些事情需要注意。首先，對于默認的并行機制要小心。默認情況下的并行意味著Sqoop假設(shè)大數(shù)據(jù)是在分區(qū)鍵范圍內(nèi)均勻分布的。這在當(dāng)你的源系統(tǒng)是使用一個序列號發(fā)生器來生成主鍵的時候工作得很好。打個比方，當(dāng)你有一個10個節(jié)點的集群，那么工作負載是在這10臺服務(wù)器上平均分配的。但是，如果你的分割鍵是基于字母數(shù)字的，擁有比如以“A”作為開頭的鍵值的數(shù)量會是“M”作為開頭鍵值數(shù)量的20倍，那么工作負載就會變成從一臺服務(wù)器傾斜到另一臺服務(wù)器上。

如果你最擔(dān)心是性能，那么可以研究下直接加載。直接加載繞過通常的Java數(shù)據(jù)庫連接導(dǎo)入，使用數(shù)據(jù)庫本身提供的直接載入工具，比如MySQL的mysqldump。但是有特定數(shù)據(jù)庫的限制。比如，你不能使用MySQL或者PostgreSQL的連接器來導(dǎo)入BLOB和CLOB類型。也沒有驅(qū)動支持從視圖的導(dǎo)入。Oracle直接驅(qū)動需要特權(quán)來讀取類似dba_objects和v_$parameter這樣的元數(shù)據(jù)。請查閱你的數(shù)據(jù)庫直連驅(qū)動程序局限性的相關(guān)文檔。

進行增量導(dǎo)入是與效率有關(guān)的更受關(guān)注的問題，因為Sqoop專門是為大數(shù)據(jù)集設(shè)計的。Sqoop支持增量更新，將新記錄添加到最近一次的導(dǎo)出的數(shù)據(jù)源上，或者指定上次修改的時間戳。

由于Sqoop將數(shù)據(jù)移入和移出關(guān)系型數(shù)據(jù)庫的能力，其對于Hive—Hadoop生態(tài)系統(tǒng)里的著名的類SQL數(shù)據(jù)倉庫—有專門的支持不足為奇。命令“create-hive-table”可以用來將數(shù)據(jù)表定義導(dǎo)入到Hive。

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4122.html

發(fā)表評論

登陸后可評論

0條評論

ShevaKuilin

男|高級講師

我要關(guān)注我要私信

TA的文章

串口連接傳輸文件

閱讀 905·2021-11-15 11:37
我TM的才30歲，為什么不能轉(zhuǎn)行程序員？

閱讀 3672·2021-11-11 16:55
Facebook 與 GitHub 達成合作，可避免出現(xiàn)泄漏Facebook API token的情

閱讀 3305·2021-11-11 11:01
Flex 布局

閱讀 1026·2019-08-30 15:43
原生js實現(xiàn)簡單的下拉刷新功能

閱讀 2771·2019-08-30 14:12
tooltips 提示

閱讀 714·2019-08-30 12:58
淺談高性能web前端技術(shù)?！“纵p松做到減少HTTP請求

閱讀 3419·2019-08-29 15:19
案例學(xué)習(xí)總結(jié)：原生JS實現(xiàn)表格排序

閱讀 2059·2019-08-29 13:59

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Apache Sqoop：云端大數(shù)據(jù)分析的關(guān)鍵一環(huán)

相關(guān)文章

數(shù)據(jù)集成工具的使用（一）---Sqoop 從理論學(xué)習(xí)到熟練使用

**大數(shù)據(jù)框架hadoop服務(wù)角色介紹**

**如何克服云端數(shù)據(jù)倉庫數(shù)據(jù)遷移問題？**

數(shù)據(jù)遷移工具輔助向云端遷移

發(fā)表評論

0條評論

ShevaKuilin

男|高級講師

TA的文章

串口連接傳輸文件

我TM的才30歲，為什么不能轉(zhuǎn)行程序員？

Facebook 與 GitHub 達成合作，可避免出現(xiàn)泄漏Facebook API token的情

Flex 布局

原生js實現(xiàn)簡單的下拉刷新功能

tooltips 提示

淺談高性能web前端技術(shù)?！“纵p松做到減少HTTP請求

案例學(xué)習(xí)總結(jié)：原生JS實現(xiàn)表格排序

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Apache Sqoop：云端大數(shù)據(jù)分析的關(guān)鍵一環(huán)

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！