學(xué)習(xí)Hadoop大數(shù)據(jù)基礎(chǔ)框架

amc 發(fā)布于2019-08-16 13:42 / 971人閱讀

摘要：大快的大數(shù)據(jù)通用計(jì)算平臺，已經(jīng)集成相同版本號的開發(fā)框架的全部組件。，更是集成了大快的大數(shù)據(jù)一體化開發(fā)框架開發(fā)框架提供了大數(shù)據(jù)搜索自然語言處理和人工智能開發(fā)中常用的二十多個(gè)類，通過總計(jì)一百余種方法，實(shí)現(xiàn)了倍以上的開發(fā)效率的提升。

什么是大數(shù)據(jù)？進(jìn)入本世紀(jì)以來，尤其是2010年之后，隨著互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的發(fā)展，數(shù)據(jù)的增長呈爆炸趨勢，已經(jīng)很難估計(jì)全世界的電子設(shè)備中存儲的數(shù)據(jù)到底有多少，描述數(shù)據(jù)系統(tǒng)的數(shù)據(jù)量的計(jì)量單位從MB（1MB大約等于一百萬字節(jié)）、GB（1024MB）、TB（1024GB），一直向上攀升，目前，PB（等于1024TB）級的數(shù)據(jù)系統(tǒng)已經(jīng)很常見，隨著移動個(gè)人數(shù)據(jù)、社交網(wǎng)站、科學(xué)計(jì)算、證券交易、網(wǎng)站日志、傳感器網(wǎng)絡(luò)數(shù)據(jù)量的不斷加大，國內(nèi)擁有的總數(shù)據(jù)量早已超出 ZB（1ZB=1024EB，1EB=1024PB）級別。
傳統(tǒng)的數(shù)據(jù)處理方法是：隨著數(shù)據(jù)量的加大，不斷更新硬件指標(biāo)，采用更加強(qiáng)大的CPU、更大容量的磁盤這樣的措施，但現(xiàn)實(shí)是：數(shù)據(jù)量增大的速度遠(yuǎn)遠(yuǎn)超出了單機(jī)計(jì)算和存儲能力提升的速度。
而“大數(shù)據(jù)”的處理方法是：采用多機(jī)器、多節(jié)點(diǎn)的處理大量數(shù)據(jù)方法，而采用這種新的處理方法，就需要有新的大數(shù)據(jù)系統(tǒng)來保證，系統(tǒng)需要處理多節(jié)點(diǎn)間的通訊協(xié)調(diào)、數(shù)據(jù)分隔等一系列問題。
總之，采用多機(jī)器、多節(jié)點(diǎn)的方式，解決各節(jié)點(diǎn)的通訊協(xié)調(diào)、數(shù)據(jù)協(xié)調(diào)、計(jì)算協(xié)調(diào)問題，處理海量數(shù)據(jù)的方式，就是“大數(shù)據(jù)”的思維。其特點(diǎn)是，隨著數(shù)據(jù)量的不斷加大，可以增加機(jī)器數(shù)量，水平擴(kuò)展，一個(gè)大數(shù)據(jù)系統(tǒng)，可以多達(dá)幾萬臺機(jī)器甚至更多。

Hadoop最初主要包含分布式文件系統(tǒng)HDFS和計(jì)算框架MapReduce兩部分，是從Nutch中獨(dú)立出來的項(xiàng)目。在2.0版本中，又把資源管理和任務(wù)調(diào)度功能從MapReduce中剝離形成YARN，使其他框架也可以像MapReduce那樣運(yùn)行在Hadoop之上。與之前的分布式計(jì)算框架相比，Hadoop隱藏了很多繁瑣的細(xì)節(jié)，如容錯(cuò)、負(fù)載均衡等，更便于使用。
Hadoop也具有很強(qiáng)的橫向擴(kuò)展能力，可以很容易地把新計(jì)算機(jī)接入到集群中參與計(jì)算。在開源社區(qū)的支持下，Hadoop不斷發(fā)展完善，并集成了眾多優(yōu)秀的產(chǎn)品如非關(guān)系數(shù)據(jù)庫HBase、數(shù)據(jù)倉庫Hive、數(shù)據(jù)處理工具Sqoop、機(jī)器學(xué)習(xí)算法庫Mahout、一致性服務(wù)軟件ZooKeeper、管理工具Ambari等，形成了相對完整的生態(tài)圈和分布式計(jì)算事實(shí)上的標(biāo)準(zhǔn)。
大快的大數(shù)據(jù)通用計(jì)算平臺（DKH），已經(jīng)集成相同版本號的開發(fā)框架的全部組件。如果在開源大數(shù)據(jù)框架上部署大快的開發(fā)框架，需要平臺的組件支持如下：
數(shù)據(jù)源與SQL引擎：DK.Hadoop、spark、hive、sqoop、flume、kafka
數(shù)據(jù)采集：DK.hadoop
數(shù)據(jù)處理模塊：DK.Hadoop、spark、storm、hive
機(jī)器學(xué)習(xí)和AI：DK.Hadoop、spark
NLP模塊：上傳服務(wù)器端JAR包，直接支持
搜索引擎模塊：不獨(dú)立發(fā)布
大快大數(shù)據(jù)平臺（DKH）,是大快公司為了打通大數(shù)據(jù)生態(tài)系統(tǒng)與傳統(tǒng)非大數(shù)據(jù)公司之間的通道而設(shè)計(jì)的一站式搜索引擎級，大數(shù)據(jù)通用計(jì)算平臺。傳統(tǒng)公司通過使用DKH，可以輕松的跨越大數(shù)據(jù)的技術(shù)鴻溝，實(shí)現(xiàn)搜索引擎級的大數(shù)據(jù)平臺性能。
? DKH，有效的集成了整個(gè)HADOOP生態(tài)系統(tǒng)的全部組件，并深度優(yōu)化，重新編譯為一個(gè)完整的更高性能的大數(shù)據(jù)通用計(jì)算平臺，實(shí)現(xiàn)了各部件的有機(jī)協(xié)調(diào)。因此DKH相比開源的大數(shù)據(jù)平臺，在計(jì)算性能上有了高達(dá)5倍（最大）的性能提升。
? DKH，更是通過大快獨(dú)有的中間件技術(shù)，將復(fù)雜的大數(shù)據(jù)集群配置簡化至三種節(jié)點(diǎn)（主節(jié)點(diǎn)、管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)），極大的簡化了集群的管理運(yùn)維，增強(qiáng)了集群的高可用性、高可維護(hù)性、高穩(wěn)定性。
? DKH，雖然進(jìn)行了高度的整合，但是仍然保持了開源系統(tǒng)的全部優(yōu)點(diǎn)，并與開源系統(tǒng)100%兼容，基于開源平臺開發(fā)的大數(shù)據(jù)應(yīng)用，無需經(jīng)過任何改動，即可在DKH上高效運(yùn)行，并且性能會有最高5倍的提升。
? DKH，更是集成了大快的大數(shù)據(jù)一體化開發(fā)框架（FreeRCH）, FreeRCH開發(fā)框架提供了大數(shù)據(jù)、搜索、自然語言處理和人工智能開發(fā)中常用的二十多個(gè)類，通過總計(jì)一百余種方法，實(shí)現(xiàn)了10倍以上的開發(fā)效率的提升。
? DKH的SQL版本，還提供了分布式MySQL的集成，傳統(tǒng)的信息系統(tǒng)，可無縫的實(shí)現(xiàn)面向大數(shù)據(jù)和分布式的跨越。
DKH標(biāo)準(zhǔn)平臺技術(shù)構(gòu)架圖

USDP大數(shù)據(jù)平臺托管Hadoop集群大數(shù)據(jù)框架hadoop和spark 大數(shù)據(jù)框架學(xué)習(xí) 大數(shù)據(jù)三大框架學(xué)習(xí) 大數(shù)據(jù)學(xué)習(xí)基礎(chǔ)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/72183.html

發(fā)表評論

登陸后可評論

0條評論

amc

男|高級講師

我要關(guān)注我要私信

TA的文章

[11.11]Hosteons：VPS主機(jī)年付免費(fèi)雙倍硬盤+雙倍流量

閱讀 2298·2021-11-10 11:35
[C/C++]詳解STL容器3--list的功能和模擬實(shí)現(xiàn)（迭代器失效問題）

閱讀 917·2021-09-26 09:55
云主機(jī)操作系統(tǒng)win和lin有什么區(qū)別-LINUX系統(tǒng)和UNIX系統(tǒng)有什么區(qū)別和聯(lián)系呢？

閱讀 2410·2021-09-22 15:22
云主機(jī)可以用來做什么-如果你有一臺云主機(jī)，你會用來做什么呢？

閱讀 2329·2021-09-22 15:17
【干貨】手把手教你如何使用Charles抓包

閱讀 3706·2021-09-09 09:33
前端踩坑之旅

閱讀 1837·2019-08-30 11:22
GRID布局

閱讀 978·2019-08-30 10:57
關(guān)于BOOTSTRAP的整理和理解

閱讀 651·2019-08-29 16:10

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

學(xué)習(xí)Hadoop大數(shù)據(jù)基礎(chǔ)框架

相關(guān)文章

**零基礎(chǔ)學(xué)習(xí)hadoop開發(fā)先明白這層關(guān)系**

發(fā)表評論

0條評論

amc

男|高級講師

TA的文章

[11.11]Hosteons：VPS主機(jī)年付免費(fèi)雙倍硬盤+雙倍流量

[C/C++]詳解STL容器3--list的功能和模擬實(shí)現(xiàn)（迭代器失效問題）

云主機(jī)操作系統(tǒng)win和lin有什么區(qū)別-LINUX系統(tǒng)和UNIX系統(tǒng)有什么區(qū)別和聯(lián)系呢？

云主機(jī)可以用來做什么-如果你有一臺云主機(jī)，你會用來做什么呢？

【干貨】手把手教你如何使用Charles抓包

前端踩坑之旅

GRID布局

關(guān)于BOOTSTRAP的整理和理解

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

學(xué)習(xí)Hadoop大數(shù)據(jù)基礎(chǔ)框架

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！