成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

hadoop集群管理系統(tǒng)搭建規(guī)劃說明

ThreeWords / 643人閱讀

摘要:集群管理系統(tǒng)搭建規(guī)劃說明分布式集群環(huán)境搭建是每個入門級新手都非常頭疼的事情,因為你可能花費了很久的時間在搭建運行環(huán)境,最終卻不知道什么原因無法創(chuàng)建成功。也是如此,它負責管理集群中的資源和任務(wù)調(diào)度,你也可以把它視為大數(shù)據(jù)操作系統(tǒng)。

hadoop集群管理系統(tǒng)搭建規(guī)劃說明
Hadoop分布式集群環(huán)境搭建是每個入門級新手都非常頭疼的事情,因為你可能花費了很久的時間在搭建運行環(huán)境,最終卻不知道什么原因無法創(chuàng)建成功。但對新手來說,運行環(huán)境搭建不成功的概率還蠻高的。
在之前的分享文章中給hadoop新手入門推薦的大快搜索DKHadoop發(fā)行版,在運行環(huán)境安裝方面的確要比其他的發(fā)行版hadoop要簡單的多,畢竟DKHadoop是對底層重新集成封裝的,對與研究hadoop尤其是入門級新手來說是非常友好的一個發(fā)行版!關(guān)于DKHadoop的安裝留在后面再給大家分享,本篇就跟大家聊一聊關(guān)于hadoop分布式集群環(huán)境搭建規(guī)劃。

1、分布式機器架構(gòu)圖:

其中機器1主節(jié)點,機器2從節(jié)點,機器3、機器4等都是計算節(jié)點。當主節(jié)點宕機后從節(jié)點代替主節(jié)點工作,正常狀態(tài)是從節(jié)點和計算節(jié)點一樣工作。這種架構(gòu)設(shè)計保證數(shù)據(jù)完整性。
首先我們保證每臺計算節(jié)點上分別有一個DataNode節(jié)點和NodeManager節(jié)點。因為都是計算節(jié)點,真正干活的。在數(shù)量上我們要保證。那么NameNode和ResourceManager是兩個非常重要的管理者,我們客戶端的請求,第一時間與NameNode和ResourceManager打交道。NameNode負責管理HDFS文件系統(tǒng)的元數(shù)據(jù),客戶端不管是讀文件還是寫文件,都要首先找到NameNode獲取文件的元數(shù)據(jù),再進行文件的操作。ResourceManager也是如此,它負責管理集群中的資源和任務(wù)調(diào)度,你也可以把它視為“大數(shù)據(jù)操作系統(tǒng)”??蛻舳四芊裉峤粦?yīng)用并運行,就看你的ResourceManager是否正常。
2、達到多大規(guī)模的數(shù)據(jù),才值得用大數(shù)據(jù)的方式來處理?
第一,從數(shù)據(jù)量角度,但是并無確定的答案,一般定性角度來說,你覺得這個數(shù)據(jù)量單機處理不了,比如內(nèi)存限制,時間過久等,就用集群,但是要降低時間,你的處理邏輯必須能分布式處理,定量就是一般數(shù)據(jù)或者未來的數(shù)據(jù)量會達到PB級別(可能GB)或以上就要用分布式,當然前提也是你的處理邏輯可以進行分布式。
第二,從算法角度,或者處理邏輯的時間復雜度來說,比如雖然你的數(shù)據(jù)記錄不是很多,但是你的算法或者處理邏輯的時間復雜度是n的平方,甚至更高,同時你的算法可以進行分布式設(shè)計,那么就考慮用分布式,比如你的記錄雖然只有1w, 但是時間復雜度確是n的平方,那么你想想單機要多久,要是你的算法可以進行分布式處理,那么就考慮用分布式。
3、制約大數(shù)據(jù)處理能力的幾個問題
a、網(wǎng)絡(luò)帶寬
網(wǎng)絡(luò)是聯(lián)接計算機的紐帶,這個紐帶當然越寬越好,這樣可以在計算機資源許可的情況下,在單位時間內(nèi)傳輸更多的數(shù)據(jù),讓計算機處理更多的數(shù)據(jù)?,F(xiàn)在企業(yè)網(wǎng)絡(luò)中,普遍采用的多是百兆網(wǎng)絡(luò),也有千兆,萬兆雖然有,但是用得不多。
b、磁盤
所有數(shù)據(jù),不管它從哪里來,最終都要存進不同的硬盤里面,或者閃存盤。閃存盤的讀寫效率比硬盤高得多,但是缺點也明顯:價格貴、容量小?,F(xiàn)在的存儲介質(zhì)主要還是硬盤,硬盤有順序讀寫和隨機讀寫兩種模型。順序讀寫是磁頭沿著磁道,好象流水線一樣,有規(guī)律的向前滾動進行。隨機讀寫是磁頭跳躍著,找到磁道上留空的地方,把數(shù)據(jù)寫進去。很明顯,順序讀寫比隨機讀寫效率高,所以系統(tǒng)架構(gòu)師在設(shè)計大數(shù)據(jù)存儲方案時,都是以順序讀寫為主要選擇。
c、計算機的數(shù)量
分布式的集群環(huán)境下,計算機的規(guī)模當然越大越好。這樣在數(shù)據(jù)等量的情況下,計算機數(shù)量越多,分配給每臺計算機的數(shù)據(jù)越少,處理效率自然就高了。但是計算機的數(shù)量也不是可以無限增加,集群對計算機規(guī)模的容納有一個峰值,超過這個峰值,再提升就很困難,處理不好還會下降。原因主要來自木桶短板效應(yīng)、邊界效應(yīng)、規(guī)模放大效應(yīng)。根據(jù)多年前的一個測試,當時以Pentium 3和Pentium 4芯片為基礎(chǔ)平臺,配合100M網(wǎng)絡(luò),在上面運行LAXCUS大數(shù)據(jù)系統(tǒng)。當達到千臺計算機的規(guī)模時,瓶頸開始顯露出來。如果現(xiàn)在用新的X86芯片,加上更高速的網(wǎng)絡(luò),應(yīng)該是能夠容納更多的計算機。
d、代碼質(zhì)量
這不是關(guān)鍵問題,但是是企業(yè)必須關(guān)注的一個問題。這和程序員編寫的計算機代碼質(zhì)量有關(guān)。實際上,每個大數(shù)據(jù)產(chǎn)品都是半成品,它們只是提供了一個計算框架,要實際應(yīng)用到企業(yè)生產(chǎn)中,里面還有大量業(yè)務(wù)編碼需要程序員來實現(xiàn)。要使大數(shù)據(jù)應(yīng)用達到高質(zhì)量,技術(shù)負責人要做好前期設(shè)計,清楚和規(guī)范業(yè)務(wù)流程,程序員拿到方案后,用統(tǒng)一格式編寫代碼。這是雙方互相配合的過程?;蛘哒f,要做好協(xié)同和協(xié)調(diào)的事情。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/71856.html

相關(guān)文章

  • Hadoop新手篇:hadoop入門基礎(chǔ)教程

    摘要:新手篇入門基礎(chǔ)教程關(guān)于的分享此前一直都是零零散散的想到什么就寫什么,整體寫的比較亂吧。上兩周寫的五篇內(nèi)容,匯總到一起就算是新手入門的一個基礎(chǔ)性教程吧持續(xù)更新中。應(yīng)該在改版完成后就可以正常申請下載了。 Hadoop新手篇:hadoop入門基礎(chǔ)教程關(guān)于hadoop的分享此前一直都是零零散散的想到什么就寫什么,整體寫的比較亂吧。最近可能還算好的吧,畢竟花了兩周的時間詳細的寫完的了hadoop...

    levinit 評論0 收藏0
  • 實用貼:hadoop系統(tǒng)下載安裝教程

    摘要:實用貼系統(tǒng)下載安裝教程在前幾篇的文章中分別就虛擬系統(tǒng)安裝系統(tǒng)安裝以及運行服務(wù)器的設(shè)置等內(nèi)容寫了詳細的操作教程,本篇分享的是的下載安裝步驟。我讓他們?nèi)ハ螺d安裝試一下,至于后來試沒試就不得而知了。 實用貼:hadoop系統(tǒng)下載安裝教程在前幾篇的文章中分別就虛擬系統(tǒng)安裝、LINUX系統(tǒng)安裝以及hadoop運行服務(wù)器的設(shè)置等內(nèi)容寫了詳細的操作教程,本篇分享的是hadoop的下載安裝步驟。在此之...

    BenCHou 評論0 收藏0

發(fā)表評論

0條評論

ThreeWords

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<