{eval=Array;=+count(Array);}
首先建議題主描述清楚應(yīng)用場(chǎng)景,否則別人做的方案可能都不符合需求。
就Hadoop和OpenStack的糾結(jié)而言,支撐數(shù)據(jù)分析用前者,做資源管理用后者。
=================補(bǔ)充=============
題主的需求,實(shí)質(zhì)是搭建一個(gè)IoT實(shí)時(shí)大數(shù)據(jù)平臺(tái),而不是一般意義的私有云。IoTa大數(shù)據(jù)平臺(tái)除了數(shù)據(jù)采集和結(jié)果反饋,其余部分和一般的大數(shù)據(jù)平臺(tái)相差不多。OpenStack長(zhǎng)于管理VM資源管理,Hadoop長(zhǎng)于批處理,不擅長(zhǎng)實(shí)時(shí)處理,所以需要尋找一種更加完善的解決方案。這里推薦考慮Storm或者Apache Flink。
OpenStack是一個(gè)開源的IaaS實(shí)現(xiàn),由Nova、Cinder、Neutron、Swift、Glance等一系列相互關(guān)聯(lián)的子項(xiàng)目組成,可以理解為云計(jì)算領(lǐng)域的Linux。OpenStack架構(gòu)松耦合,高可擴(kuò)展,能適應(yīng)不同企業(yè)的需求,已經(jīng)成為IaaS私有云事實(shí)標(biāo)準(zhǔn)。國(guó)內(nèi)外各大廠都在OpenStack上有很大的投入。當(dāng)然項(xiàng)目成長(zhǎng)的同時(shí),也受到大廠博弈的一些影響,但項(xiàng)目本身就是大家求同存異的結(jié)果,我們相信OpenStack會(huì)在競(jìng)合中有更美好的未來(lái)。
大數(shù)據(jù)平臺(tái)可以完全不鳥OpenStack,分布式文件系統(tǒng)有HDFS,資源調(diào)度和管理YARN就行。YARN都已經(jīng)支持Docker,希望細(xì)粒度調(diào)度模式可以考慮Mesos,Mesos提供良好的API,支持很多成熟的框架,不過(guò)Mesos不在Hadoop生態(tài)中,這是一個(gè)缺憾。Apache Hadoop能夠以低成本進(jìn)行海量數(shù)據(jù)的多維統(tǒng)計(jì)分析,還是很有優(yōu)勢(shì)。
核心流式計(jì)算部分,有Storm、Spark、Flink可以選擇。
Storm編程模型簡(jiǎn)單,毫秒級(jí)延遲,容錯(cuò)性、擴(kuò)展性和可靠性都比較好,在國(guó)內(nèi)有很多團(tuán)隊(duì)采用。不過(guò)Storm只是流計(jì)算框架,且不能直接利用YARN。
Apache Spark是和Hadoop一樣流行的開源大數(shù)據(jù)框架,社區(qū)活躍,在流計(jì)算、圖處理、機(jī)器學(xué)習(xí)方面都投入很大,支持對(duì)SQL的優(yōu)化,很適合多種大數(shù)據(jù)平臺(tái)的需求,不過(guò)Spark Streaming本質(zhì)還是批處理,把數(shù)據(jù)流分解成一系列小的RDD,通過(guò)時(shí)間窗來(lái)控制數(shù)據(jù)塊的大小,有測(cè)試說(shuō)只能支持秒級(jí)計(jì)算。
Apache Flink是可擴(kuò)展的批處理和流式數(shù)據(jù)處理的數(shù)據(jù)處理平臺(tái),能夠基于同一個(gè)Flink運(yùn)行時(shí)提供支持流處理和批處理兩種類型應(yīng)用的功能。不同于Spark,F(xiàn)link把批處理當(dāng)初特殊的流處理,并且支持增量迭代,這是非常贊的設(shè)計(jì),可以快速地處理數(shù)據(jù)密集型和迭代任務(wù),性能很有保證。不過(guò)目前Flink用戶群和社區(qū)還沒(méi)有Spark那么強(qiáng)大。但Flink的未來(lái)很值得期待,可能需要時(shí)間的沉淀。
Spark和Flink的對(duì)比,Apache Flink現(xiàn)在在大數(shù)據(jù)處理方面能夠和Apache Spark分庭抗禮么這個(gè)問(wèn)題的最佳答案質(zhì)量很棒,轉(zhuǎn)載自知乎,翻譯的這篇文章:Introduction to Apache Flink for Spark Developers : Flink vs Spark
最后,上一張網(wǎng)易猛犸大數(shù)據(jù)平臺(tái)架構(gòu)圖,供參考。
hadoop適合幾百臺(tái)電腦聯(lián)合處理數(shù)據(jù)的大型應(yīng)用,電腦少時(shí)體現(xiàn)不出優(yōu)勢(shì),反而耗費(fèi)資源卻效率不高。
潤(rùn)乾集算器是個(gè)不錯(cuò)的大數(shù)據(jù)計(jì)算引擎,資源投入很少,性價(jià)比相當(dāng)高,而且開發(fā)語(yǔ)言十分簡(jiǎn)潔易懂。目前已在很多企業(yè)大數(shù)據(jù)計(jì)算中得到了應(yīng)用,比如北京銀行、國(guó)家電網(wǎng)、油田環(huán)境監(jiān)測(cè)數(shù)據(jù)處理等
0
回答0
回答0
回答0
回答0
回答0
回答0
回答4
回答3
回答0
回答