成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

大數(shù)據(jù)時(shí)代數(shù)據(jù)庫(kù)-云HBase架構(gòu)&生態(tài)&實(shí)踐

econi / 839人閱讀

摘要:摘要第九屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì),阿里云高級(jí)技術(shù)專家架構(gòu)師封神曹龍帶來(lái)題為大數(shù)據(jù)時(shí)代數(shù)據(jù)庫(kù)云架構(gòu)生態(tài)實(shí)踐的演講。主要內(nèi)容有三個(gè)方面首先介紹了業(yè)務(wù)挑戰(zhàn)帶來(lái)的架構(gòu)演進(jìn),其次分析了及生態(tài),最后分享了大數(shù)據(jù)數(shù)據(jù)庫(kù)的實(shí)際案例。數(shù)據(jù)備份及恢復(fù)。

摘要: 2018第九屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì),阿里云高級(jí)技術(shù)專家、架構(gòu)師封神(曹龍)帶來(lái)題為大數(shù)據(jù)時(shí)代數(shù)據(jù)庫(kù)-云HBase架構(gòu)&生態(tài)&實(shí)踐的演講。主要內(nèi)容有三個(gè)方面:首先介紹了業(yè)務(wù)挑戰(zhàn)帶來(lái)的架構(gòu)演進(jìn),其次分析了ApsaraDB HBase及生態(tài),最后分享了大數(shù)據(jù)數(shù)據(jù)庫(kù)的實(shí)際案例。

直播視頻回顧
PPT下載請(qǐng)點(diǎn)擊
以下是精彩視頻內(nèi)容整理:

業(yè)務(wù)的挑戰(zhàn)

存儲(chǔ)量量/并發(fā)計(jì)算增大

現(xiàn)如今大量的中小型公司并沒(méi)有大規(guī)模的數(shù)據(jù),如果一家公司的數(shù)據(jù)量超過(guò)100T,且能通過(guò)數(shù)據(jù)產(chǎn)生新的價(jià)值,基本可以說(shuō)是大數(shù)據(jù)公司了 。起初,一個(gè)創(chuàng)業(yè)公司的基本思路就是首先架構(gòu)一個(gè)或者幾個(gè)ECS,后面加入MySQL,如果有圖片需求還可加入磁盤(pán),該架構(gòu)的基本能力包括事務(wù)、存儲(chǔ)、索引和計(jì)算力。隨著公司的慢慢發(fā)展,數(shù)據(jù)量在不斷地增大,其通過(guò)MySQL及磁盤(pán)基本無(wú)法滿足需求,只有分布式化。 這個(gè)時(shí)候MySQL變成了HBase,檢索變成了Solr/ES,再ECS提供的計(jì)算力變成了Spark。但這也會(huì)面臨存儲(chǔ)量大且存儲(chǔ)成本高等問(wèn)題。

另外一個(gè)趨勢(shì)就是非結(jié)構(gòu)化的數(shù)據(jù)越來(lái)越多,數(shù)據(jù)結(jié)構(gòu)的模式不僅僅是SQL,時(shí)序、時(shí)空、graph模式也越來(lái)越多,需要一些新的存儲(chǔ)結(jié)構(gòu)或新的算法去解決這類問(wèn)題,也意味著所需要做的工程量就會(huì)相對(duì)較高。
引入更多的數(shù)據(jù)
對(duì)于數(shù)據(jù)處理大致可歸類為四個(gè)方面,分別是復(fù)雜性、靈活性、延遲<讀,寫(xiě)>和分布式,其中分布式肯定是不可少的,一旦缺少分布式就無(wú)法解決大規(guī)模問(wèn)題 。靈活性的意思是業(yè)務(wù)可以任意改變的;復(fù)雜性就是運(yùn)行一條SQL能夠訪問(wèn)多少數(shù)據(jù)或者說(shuō)SQL是否復(fù)雜;延遲也可分為讀與寫(xiě)的延遲。Hadoop & Spark可以解決計(jì)算復(fù)雜性和靈活性,但是解決不了延遲的問(wèn)題;HBase&分布式索引、分布式數(shù)據(jù)庫(kù)可以解決靈活性與延遲的問(wèn)題,但由于它沒(méi)有很多計(jì)算節(jié)點(diǎn),所以解決不了計(jì)算復(fù)雜性的問(wèn)題。Kylin(滿足讀延遲)在計(jì)算復(fù)雜性與延遲之間找了一個(gè)平衡點(diǎn),這個(gè)平衡點(diǎn)就是怎樣快速出報(bào)表,但對(duì)于這個(gè)結(jié)果的輸入時(shí)間我們并不關(guān)心,對(duì)于大部分的報(bào)表類的需求就是這樣的。每個(gè)引擎都是一定的側(cè)重,沒(méi)有銀彈!

ApsaraDB HBase產(chǎn)品架構(gòu)及改進(jìn)
應(yīng)對(duì)的辦法
我們也不能解決所有的問(wèn)題,我們只是解決其中大部分的問(wèn)題。如何找到一個(gè)在工程上能夠解決大部分問(wèn)題的方案至關(guān)重要,應(yīng)對(duì)辦法:

分布式:提供擴(kuò)展性
計(jì)算力延伸:算子+SQL,從ECS到Spark其本質(zhì)其實(shí)就是一種計(jì)算力的延伸
分層設(shè)計(jì):降低復(fù)雜性,提供多模式的存儲(chǔ)模型
云化:復(fù)用資源&彈性,降低成本
基本構(gòu)架

首先包含了兩個(gè)分離
分別是HDFS與分布式Region分布式檢索分離
SQL時(shí)空?qǐng)D時(shí)序Cube與分布式Region檢索分離
大致的分層機(jī)構(gòu)如下:
第一層:介質(zhì)層,熱SSD介質(zhì)、溫SSD&SATA 混合、冷純SATA(做EC)
第二層:分布式文件系統(tǒng),也就是盤(pán)古。事實(shí)上越是底層越容易做封裝優(yōu)化。
第三層:分布式安全隔離保障層QOS,如果我們做存儲(chǔ)計(jì)算分離,就意味著底層的三個(gè)集群需要布三套,這樣每個(gè)集群就會(huì)有幾十臺(tái)甚至幾百臺(tái)的節(jié)點(diǎn),此時(shí)存儲(chǔ)力是由大家來(lái)均攤的,這就意味著分布式安全隔離保障層要做好隔離性,引入QOS就意味著會(huì)增加延遲,此時(shí)會(huì)引入一些新的硬件(比如RDMA)去盡可能的減小延遲。
第四層:分布式文件接口:HDFS & API(此層看情況可有可無(wú))
第五層:我們提供了兩個(gè)組件,分布式Region-HBase與分布式檢索-Solr,在研究分布索引的時(shí)候發(fā)現(xiàn)單機(jī)索引是相對(duì)簡(jiǎn)單的,我們提供針對(duì)二級(jí)索引采取內(nèi)置的分布式Region的分布式架構(gòu),針對(duì)全文索引采取外置Solr分布式索引方案
第六層:建設(shè)在分布式KV之上,有NewSQL套件、時(shí)空套件、時(shí)序套件、圖套件及Cube套件
另外,可以引入spark來(lái)分析,這個(gè)也是社區(qū)目前通用的方案
解決成本的方案
對(duì)于解決成本的方案簡(jiǎn)單介紹如下:

分級(jí)存儲(chǔ):SSD與SATA的價(jià)格相差很多,在冷數(shù)據(jù)上,我們建議直接采取冷存儲(chǔ)的方式 ,可以節(jié)約500%的成本
高壓縮比:在分級(jí)存儲(chǔ)上有一個(gè)較好的壓縮,尤其是在冷數(shù)據(jù),我們可以提高壓縮比例,另外分布式文件系統(tǒng)可以采取EC進(jìn)一步降低存儲(chǔ)成本,節(jié)約100%的成本
基礎(chǔ)設(shè)施共享:庫(kù)存壓力分擔(dān),云平臺(tái)可以釋放紅利給客戶
存儲(chǔ)與計(jì)算分離:按需計(jì)費(fèi)
優(yōu)化性能:再把性能提升1倍左右
云數(shù)據(jù)庫(kù)基本部署結(jié)構(gòu)

假設(shè)在北京有三個(gè)機(jī)房可用區(qū)A、B和C,我們會(huì)在可用區(qū)A中部署一個(gè)熱的存儲(chǔ)集群,在北京整體區(qū)域部一個(gè)冷的存儲(chǔ)集群,實(shí)際上有幾個(gè)可用區(qū)就可以有幾個(gè)熱集群,主要是保障延遲的;冷集群對(duì)延遲相對(duì)不敏感,可以地域多帶帶部署,只要交換機(jī)滿足冷集群所需的帶寬即可。這樣的好處是三個(gè)區(qū)共享一個(gè)冷集群,就意味著可以共享庫(kù)存。
ApsaraDB HBase產(chǎn)品能力
我們提供兩個(gè)版本,一是單節(jié)點(diǎn)版,其特點(diǎn)是給開(kāi)發(fā)測(cè)試用或者可用性不高,數(shù)據(jù)量不大的場(chǎng)景。二是集群版本其特點(diǎn)是高至5000w QPS,多達(dá)10P存儲(chǔ)與高可靠低延遲等。

數(shù)據(jù)可靠性:99.99999999%:之所以可靠性可以達(dá)到如此之高,其核心的原因就是存儲(chǔ)集群是多帶帶部署的,其會(huì)根據(jù)機(jī)架等進(jìn)行副本放置優(yōu)化
服務(wù)可用性:?jiǎn)渭?9.9% 雙集群99.99%。
服務(wù)保障:服務(wù)未滿足SLA賠付。
數(shù)據(jù)備份及恢復(fù)。
數(shù)據(jù)熱冷分離分級(jí)存儲(chǔ)。
企業(yè)級(jí)安全:認(rèn)證授權(quán)及加密。
提供檢索及二級(jí)索引及NewSQL能力。
提供時(shí)序/圖/時(shí)空/Cube相關(guān)能力。
與Spark無(wú)縫集成,提供AP能力。
數(shù)據(jù)備份及恢復(fù)

備份分為全量備份HFile與 增量量備份HLog;恢復(fù)分為HLog轉(zhuǎn)化為HFile和BulkLoad加載。阿里云集團(tuán)迄今為止已經(jīng)有一萬(wàn)兩千多臺(tái)的HBase,大部分都是主備集群的,在云上由于客戶成本的原因,大部分不選擇主備,所以需要對(duì)數(shù)據(jù)進(jìn)行備份。其難點(diǎn)在于備份需要引入計(jì)算資源,我們需要引入彈性的計(jì)算資源來(lái)處理備份的相關(guān)計(jì)算任務(wù)
Compaction 離線Compaction(研究中)

我們?cè)趦?nèi)部研究如何通FPGA對(duì)Compaction進(jìn)行加速,這會(huì)使得集群運(yùn)行比較平緩,特別是對(duì)計(jì)算資源少,存儲(chǔ)量大的情況下,可以通過(guò)離線的作業(yè)處理Compaction。
組件層
我們有5中組件,NewSQL(Phoenix)、時(shí)序OpenTSDB、時(shí)空GeoMesa、圖JanusGraph及Cube的Kylin,及提供HTAP能力的Spark。這里簡(jiǎn)單描述幾個(gè),如下:

NewSQL-Phoenix
客戶還是比較喜歡用SQL的,Phoenix會(huì)支持SQL及二級(jí)索引,在超過(guò)1T的數(shù)據(jù)量的情況下,對(duì)事務(wù)的需求就很少(所以我們并沒(méi)有支持事務(wù));二級(jí)索引是通過(guò)再新建一張HBase表來(lái)實(shí)現(xiàn)的。在命中索引的情況下,萬(wàn)億級(jí)別的訪問(wèn)基本在毫秒級(jí)別,但由于Phoenix聚合點(diǎn)在一個(gè)節(jié)點(diǎn),所以不能做Shuffle類似的事情,同時(shí)也就不能處理復(fù)雜的計(jì)算,所以任何說(shuō)我是HTAP架構(gòu)的,如果不能做Shuffle,就基本不能做復(fù)雜的計(jì)算。

HTAP-Spark

在HTAP-Spark這部分主要介紹一下RDD API、 SQL、直接訪問(wèn)HFile,它們的特點(diǎn)如下:
RDD API具有簡(jiǎn)單方便,默認(rèn)支持的特點(diǎn),但高并發(fā)scan大表會(huì)影響穩(wěn)定性;
SQL支持算子下推、schema映射、各種參數(shù)調(diào)優(yōu),高并發(fā)scan大表會(huì)影響穩(wěn)定性;
直接訪問(wèn)HFile,直接訪問(wèn)存儲(chǔ)不經(jīng)過(guò)計(jì)算,大批量量訪問(wèn)性能最好,需要snapshot對(duì)齊數(shù)據(jù)。
時(shí)序-OpenTSDB & HiTSDB
TSD沒(méi)有狀態(tài),可以動(dòng)態(tài)加減節(jié)點(diǎn),并按照時(shí)序數(shù)據(jù)的特點(diǎn)設(shè)計(jì)表結(jié)構(gòu),其內(nèi)置針對(duì)浮點(diǎn)的高壓縮比的算法,我們?cè)粕蠈I(yè)版的HiTSDB增加倒排等能力,并能夠針對(duì)時(shí)序增加插值、降精度等優(yōu)化。

大數(shù)據(jù)數(shù)據(jù)庫(kù)的實(shí)際案例
以下簡(jiǎn)單介紹幾個(gè)客戶的案例,目前已經(jīng)在云上ApsaraDB HBase運(yùn)行,數(shù)據(jù)量基本在10T以上:

某車聯(lián)網(wǎng)公司

這是一個(gè)車聯(lián)網(wǎng)的客戶,有100萬(wàn)車,每輛車每10秒上傳一次,每次1KB,這樣一年就有300T數(shù)據(jù),六個(gè)月以上是數(shù)據(jù)低頻訪問(wèn),所以他要做分級(jí)存儲(chǔ),把冷數(shù)據(jù)放到低介質(zhì)上
某大數(shù)據(jù)控公司

這是一個(gè)大數(shù)據(jù)控公司,它大約有200T+的數(shù)據(jù)量,將HBase數(shù)據(jù) (在線實(shí)時(shí)大數(shù)據(jù)存儲(chǔ))作為主數(shù)據(jù)庫(kù),先用HBase做算法訓(xùn)練,再用HBase SQL出報(bào)表,另外做了一套ECS進(jìn)行實(shí)時(shí)查以便與客戶之間進(jìn)行數(shù)據(jù)交換。
某社交公司

社交會(huì)有大量的推薦,所以SLA要求高達(dá)99.99,并采用雙集群保障,單集群讀寫(xiě)高峰QPS 可以達(dá)到1000w+,數(shù)據(jù)量在30T左右。
某基金公司

這是一個(gè)金融公司,它有10000億以上的交易數(shù)據(jù),目前用多個(gè)二級(jí)索引支持毫秒級(jí)別的查詢,數(shù)據(jù)量在100T左右
某公司報(bào)表系統(tǒng)

先離線建好Cube再把數(shù)據(jù)同步到HBase中,實(shí)時(shí)數(shù)據(jù)通過(guò)Blink對(duì)接進(jìn)行更新,數(shù)據(jù)量在可達(dá)20T左右。

原文鏈接

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/17754.html

相關(guān)文章

  • 企業(yè)打開(kāi)HBase的正確方式,來(lái)自阿里數(shù)據(jù)庫(kù)團(tuán)隊(duì)的解讀

    摘要:推出云單節(jié)點(diǎn)版本,極低成本,降低使用門(mén)檻阿里云云服務(wù)正式推出單節(jié)點(diǎn)版本,歡迎訪問(wèn)了解更多。最后,通過(guò)釘釘技術(shù)交流群找到阿里云的技術(shù)團(tuán)隊(duì)同學(xué)。阿里云團(tuán)隊(duì)希望通過(guò)這些星星之火,點(diǎn)燃以及整個(gè)技術(shù)生態(tài)的草原。普及,阿里云團(tuán)隊(duì)在行動(dòng)原文鏈接 摘要:?一、HBase的歷史由來(lái) HBase是一個(gè)開(kāi)源的非關(guān)系型分布式數(shù)據(jù)庫(kù)(NoSQL),基于谷歌的BigTable建模,是一個(gè)高可靠性、高性能、高伸縮的...

    wslongchen 評(píng)論0 收藏0
  • 2019年微服務(wù)實(shí)踐第一課,網(wǎng)易&amp;諧&amp;蘑菇街&amp;奧思技術(shù)咖深度分享

    摘要:本次演講將介紹蘑菇街微服務(wù)治理體系經(jīng)歷的架構(gòu)演進(jìn)歷程,面臨的技術(shù)難點(diǎn)和解決思路。年加入蘑菇街,目前負(fù)責(zé)蘑菇街內(nèi)部中間件平臺(tái),包括分布式服務(wù)通信框架配置中心服務(wù)發(fā)現(xiàn)消息隊(duì)列等其他服務(wù)基礎(chǔ)設(shè)施等項(xiàng)目。文章來(lái)源網(wǎng)易云社區(qū) 微服務(wù)的概念最早由Martin Fowler與James Lewis于2014年共同提出,核心思想是圍繞業(yè)務(wù)能力組織服務(wù),各個(gè)微服務(wù)可被獨(dú)立部署,服務(wù)間是松耦合的關(guān)系,以及...

    genedna 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

econi

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<