{eval=Array;=+count(Array);}
近幾年,大數(shù)據(jù)的概念逐漸深入人心,大數(shù)據(jù)的趨勢(shì)越來(lái)越火爆。但是,大數(shù)據(jù)到底是個(gè)啥?怎么樣才能玩好大數(shù)據(jù)呢?
大數(shù)據(jù)的基本含義就是海量數(shù)據(jù),麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。
數(shù)字經(jīng)濟(jì)的要素之一就是大數(shù)據(jù)資源,現(xiàn)在大家聊得最多的大數(shù)據(jù)是基于已經(jīng)存在的大數(shù)據(jù)的應(yīng)用開發(fā)。
如今,大數(shù)據(jù)技術(shù)已應(yīng)用在各行各業(yè)。小麥舉個(gè)例子,講述一下最貼近我們生活的民生服務(wù)是如何運(yùn)用大數(shù)據(jù)。
最近電視新聞提及到的“一網(wǎng)統(tǒng)管”精準(zhǔn)救助場(chǎng)景,傳統(tǒng)的救助方式往往通過困難家庭申請(qǐng)、審核、審批等多項(xiàng)程序,遇到需要跨部門、跨層級(jí)、跨街區(qū)協(xié)調(diào)解決的個(gè)案,還需要召開各級(jí)協(xié)調(diào)會(huì)的形式協(xié)商解決。
現(xiàn)在通過“精準(zhǔn)救助”的方式,民政部門在平時(shí)的摸排中了解情況,將相關(guān)信息錄入到“一網(wǎng)統(tǒng)管”數(shù)據(jù)中心,再根據(jù)數(shù)據(jù)模型識(shí)別出需要協(xié)助的家庭,隨后形成走訪工單派發(fā)給社工對(duì)其進(jìn)行幫扶,從而提升救助的效率,做到雪中送炭。
在數(shù)字化政府改造之前,每個(gè)部門只掌握各自分管的數(shù)據(jù),形成“信息孤島”;有了大數(shù)據(jù)分析平臺(tái)后,所有的數(shù)據(jù)信息,便打通了“任督二脈”。
政府可以充分利用大數(shù)據(jù)技術(shù)打造“一網(wǎng)統(tǒng)管”精準(zhǔn)救助場(chǎng)景,極大提升了社會(huì)救助的科學(xué)性和精準(zhǔn)性,讓城市變得更加溫暖。
就以悟空問答為例說(shuō)說(shuō)大數(shù)據(jù)的故事。以下說(shuō)的數(shù)字都不是真實(shí)的,都是我的假設(shè)。
比如每天都有1億的用戶在悟空問答上回答問題或者閱讀問答。
假設(shè)平均有1000萬(wàn)的用戶每天回答一個(gè)問題。一個(gè)問題平均有1000的字, 平均一個(gè)漢字占2個(gè)字節(jié)byte,三張圖片, 平均一帳圖片300KB。那么一天的數(shù)據(jù)量就是:
文字總量:10,000,000 * 1,000 * 2 B = 20 GB
圖片總量: 10,000,000 * 3 * 300KB = 9 TB
為了收集用戶行為,所有的進(jìn)出悟空問答頁(yè)面的用戶。點(diǎn)擊,查詢,停留,點(diǎn)贊,轉(zhuǎn)發(fā),收藏都會(huì)產(chǎn)生一條記錄存儲(chǔ)下來(lái)。這個(gè)量級(jí)更大。
所以粗略估計(jì)一天20TB的數(shù)據(jù)量. 一般的PC電腦配置大概1TB,一天就需要20臺(tái)PC的存儲(chǔ)。
如果一個(gè)月的,一年的數(shù)據(jù)可以算一下有多少。傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)在量上就很難做到。
另外這些數(shù)據(jù)都是文檔類型的數(shù)據(jù)。需要各種不同的存儲(chǔ)系統(tǒng)支持,比如NoSQL數(shù)據(jù)庫(kù)。
需要分布式數(shù)據(jù)存儲(chǔ),比如Hadoop的HDFS。
上述1000萬(wàn)個(gè)答案,會(huì)有1億的人閱讀。提供服務(wù)的系統(tǒng)成百上千。這些數(shù)據(jù)需要在網(wǎng)上各個(gè)系統(tǒng)間來(lái)回傳播。需要消息系統(tǒng)比如Kafka。
同時(shí)在線的用戶量在高峰時(shí)可能達(dá)到幾千萬(wàn)。如此高的訪問量需要數(shù)前臺(tái)服務(wù)器同時(shí)提供一致的服務(wù)。為了給用戶提供秒級(jí)的服務(wù)體現(xiàn),需要加緩存系統(tǒng)比如redis。
所有的內(nèi)容包括圖片都會(huì)還用來(lái)機(jī)器學(xué)習(xí)的分析,從而得到每個(gè)用戶的喜好,給用戶推薦合適的內(nèi)容和廣告。還有如此大量的數(shù)據(jù),必須實(shí)時(shí)的分析,審核,審核通過才能發(fā)布,人工審核肯定做不到,必須利用機(jī)器來(lái)智能分析,需要模式識(shí)別,機(jī)器學(xué)習(xí),深度學(xué)習(xí)。實(shí)時(shí)計(jì)算需要Spark,F(xiàn)link等流式計(jì)算技術(shù)。
幾千臺(tái)服務(wù)器,協(xié)同工作。網(wǎng)絡(luò)和硬件會(huì)經(jīng)常出問題。這么多的資源能夠得到有效利用需要利用云計(jì)算技術(shù),K8S等容器管理工具。還需要分布式系統(tǒng)的可靠性和容災(zāi)技術(shù)。
本人,@小馬過河Vizit,專注于分布式系統(tǒng)原理和實(shí)踐分享。希望利用動(dòng)畫生動(dòng)而又準(zhǔn)確的演示抽象的原理。歡迎關(guān)注。
關(guān)于我的名字。小馬過河Vizit,意為凡事像小馬過河一樣,需要自己親自嘗試,探索才能獲得樂趣和新知。Vizit是指Visualize it的縮寫。一圖勝千言,希望可以利用動(dòng)畫來(lái)可視化一些抽象的原理。
這是我通常與想要了解大數(shù)據(jù)的人進(jìn)行對(duì)話:
問:什么是大數(shù)據(jù)?
答:大數(shù)據(jù)是描述龐大數(shù)據(jù)的術(shù)語(yǔ)。
問:現(xiàn)在,大數(shù)據(jù)有多大?
答:如此龐大,以至于無(wú)法用常規(guī)工具處理?
問:通常的工具是什么意思?
答:普通文件系統(tǒng),數(shù)據(jù)庫(kù)等工具。
所有這些大數(shù)據(jù)工具都有一個(gè)共同的特性:分布式計(jì)算。
因此,大數(shù)據(jù)是一個(gè)通常只能通過分布式的工具才能解決的問題。我知道這些天,每個(gè)人都在嘗試將他們的BI(商業(yè)情報(bào))工具描繪成大數(shù)據(jù)工具,但不要被喧鬧聲所欺騙。
問:哪些典型的大數(shù)據(jù)問題?
答:請(qǐng)考慮以下幾點(diǎn):
1,如何建立存儲(chǔ)和保存500 TB電影/視頻/文字的存儲(chǔ)?
2,一臺(tái)機(jī)器實(shí)際讀取500 TB會(huì)花費(fèi)多少時(shí)間?
3,如何建立可以存儲(chǔ)數(shù)百萬(wàn)列和數(shù)十億行數(shù)據(jù)而不會(huì)像烏龜一樣慢的數(shù)據(jù)存儲(chǔ)?
4,如何提供每秒數(shù)百萬(wàn)的讀寫?
5,如何解決真正復(fù)雜的問題?還記得時(shí)間的復(fù)雜性嗎?想象一下,電子郵件哦公司,必須每秒鐘來(lái)自不同用戶30GB 電子郵件自動(dòng)分類為5個(gè)類別(比如是否垃圾郵件),
或判斷數(shù)百萬(wàn)個(gè)網(wǎng)站的內(nèi)容,您必須準(zhǔn)備網(wǎng)站名稱的層次樹,以使兩個(gè)同級(jí)彼此非常相似。這種問題稱為分類。
它們比通常的數(shù)據(jù)排序更為復(fù)雜。
隨著數(shù)據(jù)的進(jìn)一步增長(zhǎng),這些問題變得非常不可能解決。
解決此類問題需要巨大的計(jì)算能力-就RAM,CPU,磁盤讀取速度而言。
問:大數(shù)據(jù)有什么用?
答:如果規(guī)模巨大,幾乎每個(gè)業(yè)務(wù)計(jì)算問題都可以轉(zhuǎn)換為大數(shù)據(jù)問題。
大數(shù)據(jù)是對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)、計(jì)算、統(tǒng)計(jì)、分析處理的一系列處理手段,處理的數(shù)據(jù)量通常是TB級(jí),甚至是PB或EB級(jí)的數(shù)據(jù),這是傳統(tǒng)數(shù)據(jù)處理手段所無(wú)法完成的,其涉及的技術(shù)有分布式計(jì)算、高并發(fā)處理、高可用處理、集群、實(shí)時(shí)性計(jì)算等,匯集了當(dāng)前IT領(lǐng)域熱門流行的IT技術(shù)。
1、大數(shù)據(jù)的概念:大數(shù)據(jù)(big data),IT行業(yè)術(shù)語(yǔ),是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低的四大特征。
大數(shù)據(jù)的5V特點(diǎn)(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。
2、大數(shù)據(jù)有哪些技術(shù):
基礎(chǔ):
a、linux的操作和shell編程
b、zookeeper分布式系統(tǒng)的協(xié)調(diào)服務(wù)
c、redis內(nèi)存數(shù)據(jù)庫(kù)
d、java的并發(fā)包編程:反射、socket編程、NIO、netty、RPC、jvm
離線:
a、hdfs分布式文件系統(tǒng)
b、mapreduce 分布式運(yùn)算框架
c、hive數(shù)據(jù)倉(cāng)庫(kù)工具
d、hbase nosql數(shù)據(jù)庫(kù)
e、離線輔助工具 flume、sqoop、azkaban
實(shí)時(shí)流式計(jì)算
a、storm
b、kafka
內(nèi)存計(jì)算
spark(spark-core、spark-sql、spark-streaming、spark-mllib)
實(shí)時(shí)計(jì)算
flink
編程語(yǔ)言
java、scala、python(根據(jù)自己掌握的情況選擇)
最近新接觸的技術(shù)(都是數(shù)據(jù)庫(kù))
druid、doris、kudu
大數(shù)據(jù) big data 國(guó)標(biāo)定義:
支持一個(gè)或多個(gè)應(yīng)用領(lǐng)域,按概念結(jié)構(gòu)組織的數(shù)據(jù)集合,其概念結(jié)構(gòu)描述這些數(shù)據(jù)的特征及其對(duì)
應(yīng)實(shí)體間的聯(lián)系。具有數(shù)量巨大、種類多樣、流動(dòng)速度快、特征多變等特征,并且難以用傳統(tǒng)數(shù)據(jù)體
系結(jié)構(gòu)和數(shù)據(jù)處理技術(shù)進(jìn)行有效組織、存儲(chǔ)、計(jì)算、分析和管理的數(shù)據(jù)集。
[來(lái)源:GB/T 35274-2017,定義3.1]
1、基礎(chǔ)概念大數(shù)據(jù)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)技術(shù)則主要用來(lái)解決海量數(shù)據(jù)的存儲(chǔ)和分析。
2、特點(diǎn)分析
大數(shù)據(jù)的5V特點(diǎn)(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。
3、發(fā)展過程
Google在2004年前后發(fā)表的三篇論文,分別是文件系統(tǒng)GFS、計(jì)算框架MapReduce、NoSQL數(shù)據(jù)庫(kù)系統(tǒng)BigTable。海量數(shù)據(jù)文件,分析計(jì)算,并存儲(chǔ),確立了大數(shù)據(jù)的基本原理和思路。
天才程序員DougCutting,也是Lucene、Nutch項(xiàng)目發(fā)起人。根據(jù)Google論文原理初步實(shí)現(xiàn)類似GFS和MapReduce的功能,后來(lái)發(fā)展成為大名鼎鼎的Hadoop。
再后來(lái),Hadoop經(jīng)過高速的發(fā)展,已經(jīng)形成一個(gè)生態(tài)體系,基于Hadoop之上,有實(shí)時(shí)計(jì)算,離線計(jì)算,NoSQL存儲(chǔ),數(shù)據(jù)分析,機(jī)器學(xué)習(xí)等一系列內(nèi)容。
從這一系列事情發(fā)展看技術(shù)規(guī)律:Google業(yè)務(wù)實(shí)踐中創(chuàng)造性的提出論文作為基礎(chǔ),業(yè)務(wù)的成長(zhǎng)和需求,迫使技術(shù)不斷更新?lián)Q代。所以業(yè)務(wù)是技術(shù)不斷發(fā)展的關(guān)鍵。
大數(shù)據(jù)技術(shù)可以定義為一種軟件應(yīng)用程序,旨在分析,處理和提取來(lái)自極其復(fù)雜的大型數(shù)據(jù)信息,而傳統(tǒng)數(shù)據(jù)處理軟件則無(wú)法處理。
我們需要大數(shù)據(jù)處理技術(shù)來(lái)分析大量實(shí)時(shí)數(shù)據(jù),并提出預(yù)測(cè)和方案以減少未來(lái)的風(fēng)險(xiǎn)。
在類別中的大數(shù)據(jù)技術(shù)分為兩大類型:
1.運(yùn)營(yíng)大數(shù)據(jù)技術(shù)
2.分析大數(shù)據(jù)技術(shù)
首先,運(yùn)營(yíng)大數(shù)據(jù)與我們生成的常規(guī)日常數(shù)據(jù)有關(guān)。這可能是在線交易,社交媒體或特定 組織的數(shù)據(jù)等。
運(yùn)營(yíng)大數(shù)據(jù)技術(shù)的一些示例如下:
·網(wǎng)上訂票,其中包括您的火車票,飛機(jī)票,電影票等。
·在線購(gòu)物是您的淘寶,京東交易等等。
·來(lái)自社交媒體網(wǎng)站(如微信,QQ等)的數(shù)據(jù)。
·任何跨國(guó)公司的員工詳細(xì)信息。
其次,分析性大數(shù)據(jù)就像大數(shù)據(jù)技術(shù)的高級(jí)版本一樣。它比運(yùn)營(yíng)大數(shù)據(jù)要復(fù)雜一些。簡(jiǎn)而言之,分析性大數(shù)據(jù)是實(shí)際績(jī)效的組成部分,而關(guān)鍵的實(shí)時(shí)業(yè)務(wù)決策是通過分析運(yùn)營(yíng)大數(shù)據(jù)來(lái)制定的。
分析大數(shù)據(jù)技術(shù)的幾個(gè)示例如下:
·股票行銷
·進(jìn)行太空任務(wù),其中任何信息都是至關(guān)重要的。
·天氣預(yù)報(bào)信息。
·可以監(jiān)視特定患者健康狀況的醫(yī)學(xué)領(lǐng)域。
投資者眼里是金光閃閃的兩個(gè)字:資產(chǎn)。
比如,F(xiàn)acebook上市時(shí),評(píng)估機(jī)構(gòu)評(píng)定的有效資產(chǎn)中大部分都是其社交網(wǎng)站上的數(shù)據(jù)。
很多初學(xué)者,對(duì)大數(shù)據(jù)的概念都是模糊不清的,大數(shù)據(jù)是什么,能做什么,學(xué)的時(shí)候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展?
如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
Target 超市以20多種懷孕期間孕婦可能會(huì)購(gòu)買的商品為基礎(chǔ),將所有用戶的購(gòu)買記錄作為數(shù)據(jù)來(lái)源,通過構(gòu)建模型分析購(gòu)買者的行為相關(guān)性,能準(zhǔn)確的推斷出孕婦的具體臨盆時(shí)間,這樣Target的銷售部門就可以有針對(duì)的在每個(gè)懷孕顧客的不同階段寄送相應(yīng)的產(chǎn)品優(yōu)惠卷。
Target的例子是一個(gè)很典型的案例,這樣印證了維克托·邁爾-舍恩伯格提過的一個(gè)很有指導(dǎo)意義的觀點(diǎn):通過找出一個(gè)關(guān)聯(lián)物并監(jiān)控它,就可以預(yù)測(cè)未來(lái)。
Target通過監(jiān)測(cè)購(gòu)買者購(gòu)買商品的時(shí)間和品種來(lái)準(zhǔn)確預(yù)測(cè)顧客的孕期,這就是對(duì)數(shù)據(jù)的二次利用的典型案例。如果,我們通過采集駕駛員手機(jī)的GPS數(shù)據(jù),就可以分析出當(dāng)前哪些道路正在堵車,并可以及時(shí)發(fā)布道路交通提醒;通過采集汽車的GPS位置數(shù)據(jù),就可以分析城市的哪些區(qū)域停車較多,這也代表該區(qū)域有著較為活躍的人群,這些分析數(shù)據(jù)適合賣給廣告投放商。不管大數(shù)據(jù)的核心價(jià)值是不是預(yù)測(cè),但是基于大數(shù)據(jù)形成決策的模式已經(jīng)為不少的企業(yè)帶來(lái)了盈利和聲譽(yù)。
簡(jiǎn)單說(shuō)有三大核心技術(shù):拿數(shù)據(jù),算數(shù)據(jù),賣數(shù)據(jù)。
一、數(shù)據(jù)采集與預(yù)處理
對(duì)于各種來(lái)源的數(shù)據(jù),包括移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)的數(shù)據(jù)等,這些結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)是零散的,也就是所謂的數(shù)據(jù)孤島,此時(shí)的這些數(shù)據(jù)并沒有什么意義,數(shù)據(jù)采集就是將這些數(shù)據(jù)寫入數(shù)據(jù)倉(cāng)庫(kù)中,把零散的數(shù)據(jù)整合在一起,對(duì)這些數(shù)據(jù)綜合起來(lái)進(jìn)行分析。
二、數(shù)據(jù)存儲(chǔ)
Hadoop作為一個(gè)開源的框架,專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計(jì),HDFS作為其核心的存儲(chǔ)引擎,已被廣泛用于數(shù)據(jù)存儲(chǔ)。
HBase,是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù),可以認(rèn)為是hdfs的封裝,本質(zhì)是數(shù)據(jù)存儲(chǔ)、NoSQL數(shù)據(jù)庫(kù)。
Phoenix,相當(dāng)于一個(gè)Java中間件,幫助開發(fā)工程師能夠像使用JDBC訪問關(guān)系型數(shù)據(jù)庫(kù)一樣訪問NoSQL數(shù)據(jù)庫(kù)HBase。
三、數(shù)據(jù)清洗
MapReduce作為Hadoop的查詢引擎,用于大規(guī)模數(shù)據(jù)集的并行計(jì)算,”Map(映射)”和”Reduce(歸約)”,是它的主要思想。它極大的方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)中。
隨著業(yè)務(wù)數(shù)據(jù)量的增多,需要進(jìn)行訓(xùn)練和清洗的數(shù)據(jù)會(huì)變得越來(lái)越復(fù)雜,這個(gè)時(shí)候就需要任務(wù)調(diào)度系統(tǒng),比如oozie或者azkaban,對(duì)關(guān)鍵任務(wù)進(jìn)行調(diào)度和監(jiān)控。
四、數(shù)據(jù)查詢分析
Hive的核心工作就是把SQL語(yǔ)句翻譯成MR程序,可以將結(jié)構(gòu)化的數(shù)據(jù)映射為一張數(shù)據(jù)庫(kù)表,并提供 HQL(Hive SQL)查詢功能。Hive本身不存儲(chǔ)和計(jì)算數(shù)據(jù),它完全依賴于HDFS和MapReduce。可以將Hive理解為一個(gè)客戶端工具,將SQL操作轉(zhuǎn)換為相應(yīng)的MapReduce jobs,然后在hadoop上面運(yùn)行。Hive支持標(biāo)準(zhǔn)的SQL語(yǔ)法,免去了用戶編寫MapReduce程序的過程,它的出現(xiàn)可以讓那些精通SQL技能、但是不熟悉MapReduce 、編程能力較弱與不擅長(zhǎng)Java語(yǔ)言的用戶能夠在HDFS大規(guī)模數(shù)據(jù)集上很方便地利用SQL 語(yǔ)言查詢、匯總、分析數(shù)據(jù)。
五、數(shù)據(jù)可視化
對(duì)接一些BI平臺(tái),將分析得到的數(shù)據(jù)進(jìn)行可視化,用于指導(dǎo)決策服務(wù)。主流的BI平臺(tái)比如,國(guó)外的敏捷BI Tableau、Qlikview、PowrerBI等,國(guó)內(nèi)的SmallBI和新興的網(wǎng)易有數(shù)等。
在上面的每一個(gè)階段,保障數(shù)據(jù)的安全是不可忽視的問題。
我有幸做了有五六七八年的大數(shù)據(jù)吧,談?wù)勛约旱目捶ā:?jiǎn)單來(lái)說(shuō),就是現(xiàn)在各個(gè)APP,網(wǎng)站產(chǎn)生的數(shù)據(jù)越來(lái)越多,越來(lái)越大,傳統(tǒng)的數(shù)據(jù)庫(kù)比如MySQL Oracle之類的,已經(jīng)處理不過來(lái)了。所以就產(chǎn)生了大數(shù)據(jù)相關(guān)的技術(shù)來(lái)處理這些龐大的數(shù)據(jù)。
第一,首先要把這些大數(shù)據(jù)都可靠的存儲(chǔ)起來(lái),經(jīng)過多年的發(fā)展,hdfs已經(jīng)成了一個(gè)數(shù)據(jù)存儲(chǔ)的標(biāo)準(zhǔn)。
第二,既然有了這么多的數(shù)據(jù),我們可以開始基于這些數(shù)據(jù)做計(jì)算了,于是從最早的MapReduce到后來(lái)的hive,spark,都是做批處理的。
第三, 由于像hive這些基于MapReduce的引擎處理速度過慢,于是有了基于內(nèi)存的olap查詢引擎,比如impala,presto。
第四,由于批處理一般都是天級(jí)別或者小時(shí)級(jí)別的,為了更快的處理數(shù)據(jù),于是有了spark streaming或者flink這樣的流處理引擎。
第五,由于沒有一個(gè)軟件能覆蓋住所有場(chǎng)景。所以針對(duì)不同的領(lǐng)域,有了一些特有的軟件,來(lái)解決特定場(chǎng)景下的問題,比如基于時(shí)間序列的聚合分析查詢數(shù)據(jù)庫(kù),inflexdb opentsdb等。采用預(yù)聚合數(shù)據(jù)以提高查詢的druid或者kylin等,
第六,還有其他用于數(shù)據(jù)削峰和消費(fèi)訂閱的消息隊(duì)列,比如kafka和其他各種mq
第七,還有一些其他的組件,比如用于資源管理的yarn,協(xié)調(diào)一致性的zookeeper等。
第八,由于hdfs 處理小文件問題不太好,還有為了解決大數(shù)據(jù)update和insert等問題,引入了數(shù)據(jù)湖的概念,比如hudi,iceberg等等。
第九,業(yè)務(wù)方面,我們基于大數(shù)據(jù)做一些計(jì)算,給公司的運(yùn)營(yíng)提供數(shù)據(jù)支撐。做一些推薦,給用戶做個(gè)性化推薦。機(jī)器學(xué)習(xí),報(bào)警監(jiān)控等等。
附一張大數(shù)據(jù)技術(shù)圖譜,從網(wǎng)上找的
大數(shù)據(jù)技術(shù)太多了,在這其實(shí)很難回答清楚,如果你是小白的話想重試大數(shù)據(jù)技術(shù),你可以去B占搜索大數(shù)據(jù)先學(xué)學(xué)相關(guān)的入門課程
10
回答0
回答0
回答10
回答0
回答10
回答0
回答0
回答0
回答0
回答