摘要:的組成在的框架版本中最核心的設(shè)計是其中是的縮寫是個分布式文件系統(tǒng)實際操作與如系統(tǒng)的操作類似。另外不是非要依附在上才能生存它可以與其他的分布式文件系統(tǒng)進行集成來運作。
實際上,關(guān)于Hadoop及其生態(tài)系統(tǒng)的文章或者書籍已經(jīng)汗牛充棟,在2016年大數(shù)據(jù)這個概念興起的時候,有幸于能進入數(shù)據(jù)行業(yè)。雖然,在這2年里,并沒有達到自己最初的期望,不過還是跨出了那么一步。
這里,我們簡單的聊聊Hadoop及其生態(tài)圈(系統(tǒng)),不做太深入的探討。
在互聯(lián)網(wǎng)上經(jīng)??吹紿adoop和大數(shù)據(jù)的名詞,那么有時候有沒有想過什么是Hadoop呢?
Hadoop是什么,是1個使用Java編寫的分布式系統(tǒng)架構(gòu)。它讓用戶在不了解分布式底層細節(jié)的情況下,可以開發(fā)出分布式程序,并充分利用集群進行高速運算和存儲。
現(xiàn)在,你應(yīng)該知道Hadoop是什么了吧。
在Hadoop的框架版本1.0中,最核心的設(shè)計是:
HDFS
MapReduce
其中HDFS是Hadoop Distributed File System的縮寫,是1個分布式文件系統(tǒng),實際操作與POSIX(如Unix、Linux)系統(tǒng)的操作類似。這個文件系統(tǒng)提供了海量數(shù)據(jù)的存儲,可以部署在低廉的硬件上。這對企業(yè)來說是1個很不錯的選擇,在硬件成本上降低了不少卻完成了任務(wù)。
而MapReduce主要是為海量數(shù)據(jù)提供了計算。這樣,通過Hadoop這個架構(gòu),我們就可以實現(xiàn)對海量數(shù)據(jù)的存儲、訪問與計算。
而在Hadoop版本2.0中,其核心設(shè)計演變?yōu)?
HDFS
YARN
在這里,MapReduce被YARN所替代。YARN是1個Hadoop的資源管理器,它為上層應(yīng)用提供了統(tǒng)一的資源管理和調(diào)度。它的引入,為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大的好處。此時的Hadoop就不再是1個簡單MapReduce處理的架構(gòu)了。
Hadoop適合怎樣的應(yīng)用場景?對于Hadoop適應(yīng)的應(yīng)用場景的問題,我們先來說下它不適合的場景:
Hadoop不適合實時計算與分析方面的應(yīng)用
Hadoop不適合大量小文件處理場景
Hadoop不適合低延遲數(shù)據(jù)訪問場景
Hadoop不適合多用戶寫入的場景
由于Hadoop在設(shè)計的最初被設(shè)計為針對超大文件及流式數(shù)據(jù)訪問,因此Hadoop適合如下一些場景:
日志處理
非實時的數(shù)據(jù)分析
海量存儲,比如ETL
廣告推薦
離線計算
需要注意的是,Hadoop只是1個架構(gòu)。具體的應(yīng)用場景,還需要借助它生態(tài)圈的其他工具來完善。
Hadoop的生態(tài)圈有哪些?Hadoop的生態(tài)圈主要包括:
Hive,提供數(shù)據(jù)倉庫的數(shù)據(jù)分析
Pig,提供數(shù)據(jù)流處理
Mahout,提供數(shù)據(jù)挖掘相關(guān)算法
HBase,提供分布式、實時、高維數(shù)據(jù)庫
Sqoop,提供關(guān)系型數(shù)據(jù)庫數(shù)據(jù)與Hadoop的導(dǎo)入導(dǎo)出
Flume,提供日志收集
Zookeeper,提供分布式協(xié)作服務(wù)
其結(jié)構(gòu)如下圖所示:
Hadoop有哪些替代產(chǎn)品?由于Hadoop設(shè)計的問題以及企業(yè)業(yè)務(wù)的要求,存在如下一些替代Hadoop的產(chǎn)品:
Spark
Flink
disco
其中以Spark作為代表,最有潛力可以替代Hadoop。但是需要注意的是,Hadoop只是1個工具,存在其他替代品是很正常的。但是,這并不代表Hadoop會在未來就消失,只是在某些場景上使用的更少一些而已。
畢竟,Hadoop已經(jīng)比較成熟和穩(wěn)定,生態(tài)也相對完善,因此企業(yè)也喜歡應(yīng)用。
Spark是另外1個大數(shù)據(jù)處理框架,相比Hadoop,其將計算數(shù)據(jù)存儲在內(nèi)存而不是硬盤,因此計算性能上比Hadoop快很多,可以作為Hadoop的1種補充。
相比Hadoop,Spark更適用于實時處理與分析的場景,另外在Spark中還提供了圖計算GraphX及機器學(xué)習(xí)的Mlib庫,通用性比Hadoop更強一些。
另外,Spark不是非要依附在Hadoop上才能生存,它可以與其他的分布式文件系統(tǒng)進行集成來運作。對于大數(shù)據(jù)開發(fā)來說,很多情況下是堆積木的1個過程。
對于大數(shù)據(jù)的技術(shù)棧而言,存在多個可選的方案而不是完全替代的方案。畢竟在軟件工程項目中,是要考慮成本的,我們需要根據(jù)項目的經(jīng)費選擇合適的技術(shù)方案。
任何1門高薪的職業(yè),必定有其不可替代的技術(shù)門檻和技能要求,比如基金經(jīng)理,必定是金融行業(yè)那么一撮的精英的存在,但是人家也要至少花個1億美金的操練才可能稱為稱職的職業(yè)人士。
如果單純覺得學(xué)習(xí)1個Hadoop就可以拿到高薪,那只能是癡人說夢話。當(dāng)然,不排除一些培訓(xùn)機構(gòu)會打著這樣的幌子讓你去培訓(xùn)。而要拿到高薪需要具有如下一些條件:
有這樣需求和給得起錢的企業(yè)
你具有相關(guān)的職業(yè)技能
你具有相關(guān)的學(xué)歷
具備相關(guān)面試技巧
在2018年,可以說大家都過得小心翼翼,加薪是1件不容易的事情。伴隨著2018各家廠商的裁員,人們在互聯(lián)網(wǎng)的冬天的呼喊中迎來2019年爆竹聲。隨著資本會在2019年逐漸回歸本質(zhì),但是要真的想通過大數(shù)據(jù)拿到高薪還是1件不容易的事情。
據(jù)不準確統(tǒng)計,實際上在招聘中很多企業(yè)雖然給出了大數(shù)據(jù)相關(guān)的崗位,但是并不代表它能提供給你合適的崗位。很多中小型企業(yè)招聘1個職位,實際上很多情況下它也不知道具體的崗位要求是什么,只能在網(wǎng)上搜羅一些關(guān)鍵詞進行填寫。可想而言,開出的薪資自然不盡如意。
另外,有些企業(yè)只是為了單純的刷新存在感,發(fā)布一些招聘職位,而并不打算招聘,為了避免浪費時間,還需要擦亮眼睛。
排除了上述第1個外部原因,需要有這樣需求和給得起前的企業(yè)的外因后,那么剩下的內(nèi)因就是招聘人員自身的水平了。
首先,1家靠譜的企業(yè)總有完善的招聘流程,如果自己不是過硬的學(xué)歷,比如985院校畢業(yè)。那么,要進入大數(shù)據(jù)行業(yè)真的會被拒之門外。另外,要想拿高薪,還需要具備過硬的心理素質(zhì)和技術(shù)能力,而不是我對Hadoop及其生態(tài)系統(tǒng)有所了解,就可以輕松進入的。
在大數(shù)據(jù)行業(yè)中,加班加點是常飯,因為數(shù)據(jù)有時候真的很令人堪憂,自然是逃脫不了的事情。
當(dāng)然,萬事都不是絕對的。有些企業(yè)還是要轉(zhuǎn)型的,會開設(shè)這樣的研發(fā)部門,此時還是比較容易進去的。
大數(shù)據(jù)行業(yè)的工作,是1個考驗綜合能力的職位,絕不是網(wǎng)上一些公眾號宣稱的那么神奇和簡單。
如果只是為了高薪而隨意進入1個行業(yè),是件挺危險的事情。如果在事先沒有考慮妥當(dāng),完全是為了薪資而不是個人興趣的話,你會很快發(fā)現(xiàn)就失去了前行的動力。
無論從事什么崗位,都要不定期的總結(jié)和歸納,從而形成自己的知識體系,并擴充自己的軟技能。
原文地址:
http://blog.52sox.com/hadoop-...
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/42947.html
摘要:的組成在的框架版本中最核心的設(shè)計是其中是的縮寫是個分布式文件系統(tǒng)實際操作與如系統(tǒng)的操作類似。另外不是非要依附在上才能生存它可以與其他的分布式文件系統(tǒng)進行集成來運作。 實際上,關(guān)于Hadoop及其生態(tài)系統(tǒng)的文章或者書籍已經(jīng)汗牛充棟,在2016年大數(shù)據(jù)這個概念興起的時候,有幸于能進入數(shù)據(jù)行業(yè)。雖然,在這2年里,并沒有達到自己最初的期望,不過還是跨出了那么一步。 這里,我們簡單的聊聊Had...
摘要:二這些內(nèi)容都很有意思,本文唯獨想聊聊它內(nèi)置電池。這樣做的預(yù)期效果是內(nèi)置電池會變得輕量小型化高質(zhì)量,同時三方庫的生態(tài)系統(tǒng)也能得到進化。目前,該仍處于草案狀態(tài),但已基本成為社區(qū)共識。 showImg(https://segmentfault.com/img/remote/1460000019489233?w=1880&h=1253); 本文原創(chuàng)并首發(fā)于公眾號【Python貓】,未經(jīng)授權(quán),請...
摘要:二這些內(nèi)容都很有意思,本文唯獨想聊聊它內(nèi)置電池。這樣做的預(yù)期效果是內(nèi)置電池會變得輕量小型化高質(zhì)量,同時三方庫的生態(tài)系統(tǒng)也能得到進化。目前,該仍處于草案狀態(tài),但已基本成為社區(qū)共識。 showImg(https://segmentfault.com/img/remote/1460000019489233?w=1880&h=1253); 本文原創(chuàng)并首發(fā)于公眾號【Python貓】,未經(jīng)授權(quán),請...
閱讀 2503·2021-11-15 18:14
閱讀 1725·2021-10-14 09:42
閱讀 3769·2021-10-11 10:58
閱讀 3965·2021-10-09 09:44
閱讀 2427·2021-09-26 09:55
閱讀 2451·2021-09-24 10:38
閱讀 2043·2021-09-04 16:48
閱讀 3280·2021-09-02 15:21