成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

阿里HBase的數(shù)據(jù)管道設(shè)施實(shí)踐與演進(jìn)

LMou / 2964人閱讀

摘要:摘要第九屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì),阿里巴巴技術(shù)專家孟慶義對(duì)阿里的數(shù)據(jù)管道設(shè)施實(shí)踐與演進(jìn)進(jìn)行了講解。它必須在把風(fēng)險(xiǎn)做完,風(fēng)控是根據(jù)長(zhǎng)期的歷史信息近期歷史的信息和實(shí)時(shí)的信息三個(gè)方向做綜合考量。

摘要:第九屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì),阿里巴巴技術(shù)專家孟慶義對(duì)阿里HBase的數(shù)據(jù)管道設(shè)施實(shí)踐與演進(jìn)進(jìn)行了講解。主要從數(shù)據(jù)導(dǎo)入場(chǎng)景、 HBase Bulkload功能、HImporter系統(tǒng)、數(shù)據(jù)導(dǎo)出場(chǎng)景、HExporter系統(tǒng)這些部分進(jìn)行了講述。

直播視頻請(qǐng)點(diǎn)擊
PPT下載請(qǐng)點(diǎn)擊
精彩視頻整理:

數(shù)據(jù)導(dǎo)入場(chǎng)景

生意參謀

生意參謀是一種為商家服務(wù),幫助商家進(jìn)行決策和運(yùn)營(yíng)的數(shù)據(jù)產(chǎn)品。如在淘寶或天貓上開(kāi)一家店,生意參謀會(huì)提供店里每天進(jìn)入的流量、轉(zhuǎn)化率、客戶的畫像和同行業(yè)進(jìn)行對(duì)比這些數(shù)據(jù)屬于什么位置。商家可以根據(jù)流量分析、活動(dòng)分析和行業(yè)分析去進(jìn)行決策??梢愿鶕?jù)平時(shí)日志、點(diǎn)擊量和訪問(wèn)量,數(shù)據(jù)庫(kù)把數(shù)據(jù)通過(guò)實(shí)時(shí)的流處理寫入HBase。有一部分寫到離線系統(tǒng)里,定期做一些清洗和計(jì)算再寫入HBase,然后供業(yè)務(wù)去查詢 HBase。

螞蟻風(fēng)控
在螞蟻上任何一筆交易支付都會(huì)調(diào)用風(fēng)控,風(fēng)控主要是去看這次交易是否屬于同一個(gè)設(shè)備,是否是經(jīng)常交易的地點(diǎn),以及交易的店鋪信息。它必須在100ms—200ms把風(fēng)險(xiǎn)做完,風(fēng)控是根據(jù)長(zhǎng)期的歷史信息、近期歷史的信息和實(shí)時(shí)的信息三個(gè)方向做綜合考量。用戶的輸入會(huì)實(shí)時(shí)的寫入HBase,同時(shí)這個(gè)實(shí)時(shí)的信息增量也會(huì)導(dǎo)入到離線系統(tǒng)里面,離線系統(tǒng)會(huì)定期的對(duì)數(shù)據(jù)進(jìn)行計(jì)算,計(jì)算的數(shù)據(jù)結(jié)果會(huì)作為歷史或近期歷史再寫回HBase,一個(gè)支付可能會(huì)調(diào)百十次的風(fēng)控,而且需要在百毫秒內(nèi)進(jìn)行返回。

數(shù)據(jù)導(dǎo)入需要解決的問(wèn)題
2013年剛剛開(kāi)始做數(shù)據(jù)導(dǎo)入的時(shí)候面臨的更多的是功能需求性的問(wèn)題,現(xiàn)在需要考慮的是導(dǎo)入的周期性調(diào)度、異構(gòu)數(shù)據(jù)源多、導(dǎo)入效率高和多集群下的數(shù)據(jù)一致性的問(wèn)題。前兩個(gè)問(wèn)題更適合由平臺(tái)化去解決,HBase的數(shù)據(jù)導(dǎo)入更關(guān)注的是導(dǎo)入效率和多集群下的數(shù)據(jù)的一致性。

什么是Bulkload?Bulkload有什么功能?

Bulkload使用的是一種新的結(jié)構(gòu)LSM Tree進(jìn)行寫入更新,其結(jié)構(gòu)如上圖所示。使用Application code 進(jìn)行數(shù)據(jù)寫入,數(shù)據(jù)會(huì)被寫入到MemStore,MemStore在HBase里是一個(gè)跳表,可以把它看成一個(gè)有序的列表,并不斷往里面插入數(shù)據(jù)。當(dāng)數(shù)據(jù)達(dá)到一定量時(shí)就會(huì)啟動(dòng)flush對(duì)數(shù)據(jù)進(jìn)行編碼和壓縮,并寫成HFile。HFile是由索引塊和數(shù)據(jù)塊組成的文件結(jié)構(gòu),其特點(diǎn)是只讀性,生成HFile之后就不可改了。當(dāng)用戶進(jìn)行讀取數(shù)據(jù)的時(shí)候,就會(huì)從三個(gè)HFile和一個(gè)MemStore進(jìn)行查找進(jìn)行讀取。這個(gè)結(jié)構(gòu)的優(yōu)化就是就把隨機(jī)的寫變成了有序的寫。Bulkload就可以把上千上萬(wàn)條數(shù)據(jù)在毫秒內(nèi)加入到HBase里。所以Bulkload的優(yōu)勢(shì)如下:

高吞吐

不需要WAL

避免small compaction

支持離線構(gòu)建

Bulkload的導(dǎo)入結(jié)構(gòu)如上圖所示,數(shù)據(jù)來(lái)源于數(shù)倉(cāng),首先根據(jù)HBase的分區(qū)規(guī)則對(duì)數(shù)據(jù)進(jìn)行分區(qū)和排序。然后會(huì)生成Partition Data,需要寫一個(gè)HBase插進(jìn)去。同步中心就會(huì)調(diào)動(dòng)一個(gè)作業(yè),作業(yè)內(nèi)部會(huì)有很多的tasks,每個(gè)task獨(dú)立的執(zhí)行把文件讀出,寫到HDFS上,形成一個(gè)HFile文件。當(dāng)把所有文件寫完,同步中心就會(huì)調(diào)Bulkload指令到HBase,把所有的HFile一次性的load進(jìn)去。
以前采用的是多集群導(dǎo)入的方法,但是多集群導(dǎo)入有很多缺點(diǎn)如下:

很難保證多個(gè)任務(wù)同時(shí)完成,導(dǎo)致一定時(shí)間窗口內(nèi)數(shù)據(jù)不一致

調(diào)度后的運(yùn)行環(huán)境不一致

網(wǎng)絡(luò)延遲不一致

失敗重試

集群部署對(duì)業(yè)務(wù)不透明的缺點(diǎn):

需要配置多個(gè)任務(wù)

集群遷移需要重新配置任務(wù)

為了保證數(shù)據(jù)的一致性,采用了邏輯集群導(dǎo)入法。

邏輯集群的流程如上圖所示,首先進(jìn)行分區(qū)合并,然后進(jìn)行雙數(shù)據(jù)流處理,把流分別寫到Active和Backup里,當(dāng)Active和Backup的HFile文件寫完后執(zhí)行Bulkload。因?yàn)锽ulkload是毫秒級(jí)別的,所以能實(shí)現(xiàn)一致性。
多任務(wù)和邏輯集群的差別比較如下:

多任務(wù)模式:需要重復(fù)配置,是不透明的,很難保證一致性,分區(qū)排序
需要執(zhí)行兩次,編碼壓縮兩次。
邏輯集群模式:配置一次,遷移無(wú)感知,在一致性上達(dá)到毫秒級(jí),分區(qū)排序是執(zhí)行一次,但分區(qū)數(shù)量變多,編碼壓縮一次。
隨著業(yè)務(wù)做得越來(lái)越大,這種導(dǎo)入就會(huì)遇到新的線上問(wèn)題,如擴(kuò)展性、資源利用率、研發(fā)效率、監(jiān)控等。
什么是HImporter系統(tǒng)?
HImporter是用于輔助數(shù)據(jù)同步的中間層,他會(huì)把所有HFile的構(gòu)建,加載邏輯下沉到HImporter層。

HImporter所處的位置如上圖所示。
HImporter的優(yōu)勢(shì)
分布式水平擴(kuò)展,同一個(gè)作業(yè)的不同任務(wù)可以調(diào)度到HImporter的不同worker節(jié)點(diǎn)
提高資源利用率,將壓縮等CPU密集操作下降到HImporter
快速迭代,HImporter的運(yùn)維和迭代與同步中心獨(dú)立
獨(dú)立監(jiān)控,HImporter可按照自己的需求實(shí)現(xiàn)監(jiān)控
HImporter 功能迭代
功能迭代主要包括表屬性感知、保證本地化率、支持輕量計(jì)算和安全隔離。其中表屬性感知就是感知特性,并保證特征不會(huì)變,主要包括、混合存儲(chǔ)、新壓縮編碼、表級(jí)別副本數(shù);保證本地化率是將Hfile寫入到分區(qū)所在服務(wù)器,保證本地化率和存儲(chǔ)特性,對(duì)一些rt敏感的業(yè)務(wù)效果明顯;支持輕量計(jì)算就是支持MD5,字符串拼接等函數(shù);安全隔離是避免對(duì)外暴露HDFS地址、支持Task級(jí)別重試。

數(shù)據(jù)導(dǎo)出場(chǎng)景
菜鳥聯(lián)盟

菜鳥聯(lián)盟的場(chǎng)景如上圖所示。一個(gè)物流詳情會(huì)傳到HBase,HBase會(huì)傳到數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)會(huì)產(chǎn)生報(bào)表,然后去訓(xùn)練路由算法。
淘寶客服

淘寶客服的一個(gè)退款應(yīng)用場(chǎng)景如上圖。這是一個(gè)逆向鏈接,把退款、糾紛、退款物流、退款費(fèi)用等實(shí)時(shí)的寫入到HBase里,HBase會(huì)實(shí)時(shí)的寫入queue里,blink流系統(tǒng)會(huì)消費(fèi)queue產(chǎn)生一些數(shù)據(jù)會(huì)返回到HBase,blink輸出會(huì)支撐智能服務(wù)、客戶監(jiān)控等。
增量數(shù)據(jù)導(dǎo)出需要解決的問(wèn)題
增量數(shù)據(jù)導(dǎo)出需要解決的問(wèn)題主要是離線數(shù)據(jù)的T+1處理特點(diǎn)、吞吐量 、實(shí)時(shí)性、主備流量切換等。
早期的方案是會(huì)周期性的從HDFS里把所有的日志羅列出來(lái),然后對(duì)日志進(jìn)行排序會(huì)產(chǎn)生一個(gè)有序的時(shí)間流。取work里同步時(shí)間最短的作為最終的同步時(shí)間。這種方案具有對(duì)NN節(jié)點(diǎn)造成很大壓力、無(wú)法應(yīng)對(duì)主備切換、日志熱點(diǎn)處理能力低等問(wèn)題。

HExporter系統(tǒng)

HExporter1.0如上圖所示,HExporter1.0優(yōu)勢(shì)主要有主備流量切換不影響數(shù)據(jù)導(dǎo)出,能夠識(shí)別數(shù)據(jù)來(lái)源,過(guò)濾非原始數(shù)據(jù);獨(dú)立的同步時(shí)間流,能夠保障數(shù)據(jù)按有序時(shí)間分區(qū)Dump到數(shù)據(jù)倉(cāng)庫(kù);復(fù)用HBase replication框架,能夠降低開(kāi)發(fā)工作量,復(fù)用HBase的監(jiān)控,運(yùn)維體系。
HExporter1.0 優(yōu)化主要包括以下五點(diǎn):
減少拓?fù)渚W(wǎng)絡(luò)中的數(shù)據(jù)發(fā)送,備庫(kù)避免向Exporter發(fā)送重復(fù)數(shù)據(jù);
遠(yuǎn)程輔助消化器,空閑的機(jī)器幫助消化熱點(diǎn);
避免發(fā)送小包,HExporter在接收到小包后,等待一段時(shí)間再處理;
同步通道配置隔離,實(shí)時(shí)消費(fèi)鏈路和離線消費(fèi)鏈路可以采用不同的配置;
數(shù)據(jù)發(fā)送前壓縮。
HExporter1.0的問(wèn)題是業(yè)務(wù)寫入流量產(chǎn)生高峰,離線出現(xiàn)同步延遲;HBase升級(jí)速度慢。然后我們就有了以下解決思路,離線同步的資源可以和在線資源隔離,利用離線大池子可以削峰填谷;Exporter的worker是無(wú)狀態(tài)的,如果把所有邏輯都放在Exporter,那么升級(jí)、擴(kuò)容會(huì)簡(jiǎn)單快速。然后就產(chǎn)生了HExporter2.0。

HExporter2.0如上圖所示

總結(jié)

ALiHBase數(shù)據(jù)通道的導(dǎo)入和導(dǎo)出都是添加了中間層,中間層的核心價(jià)值易擴(kuò)展、可靠性高、迭代快和穩(wěn)定。因?yàn)椴捎梅植际剿綌U(kuò)展更易擴(kuò)展;采用自主識(shí)別主備切換,封裝對(duì)HBase訪問(wèn)更可靠;采用架構(gòu)解耦,快速迭代使迭代速度更快;因?yàn)闊o(wú)狀態(tài),節(jié)點(diǎn)對(duì)等所以更加穩(wěn)定。

原文鏈接

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/17755.html

相關(guān)文章

  • 數(shù)據(jù)時(shí)代數(shù)據(jù)庫(kù)-云HBase架構(gòu)&生態(tài)&實(shí)踐

    摘要:摘要第九屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì),阿里云高級(jí)技術(shù)專家架構(gòu)師封神曹龍帶來(lái)題為大數(shù)據(jù)時(shí)代數(shù)據(jù)庫(kù)云架構(gòu)生態(tài)實(shí)踐的演講。主要內(nèi)容有三個(gè)方面首先介紹了業(yè)務(wù)挑戰(zhàn)帶來(lái)的架構(gòu)演進(jìn),其次分析了及生態(tài),最后分享了大數(shù)據(jù)數(shù)據(jù)庫(kù)的實(shí)際案例。數(shù)據(jù)備份及恢復(fù)。 摘要: 2018第九屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì),阿里云高級(jí)技術(shù)專家、架構(gòu)師封神(曹龍)帶來(lái)題為大數(shù)據(jù)時(shí)代數(shù)據(jù)庫(kù)-云HBase架構(gòu)&生態(tài)&實(shí)踐的演講。主要內(nèi)容有三個(gè)方...

    econi 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

LMou

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<