摘要:離在線混布計算存儲分離后,離在線混布成為可能今年完成數(shù)據(jù)庫離在線混布,為年大促節(jié)省了計算資源成本。展望目前我們正在進(jìn)行軟硬件結(jié)合,以及上層數(shù)據(jù)庫引擎與分布式存儲融合優(yōu)化,性能將會超出傳統(tǒng)本地盤的性能。
摘要: 隨著阿里集團(tuán)電商、物流、大文娛等業(yè)務(wù)的蓬勃發(fā)展,數(shù)據(jù)庫實例以及數(shù)據(jù)存儲規(guī)模不斷增長,在傳統(tǒng)基于單機(jī)的運(yùn)維以及管理模式下,遇到諸多如成本,調(diào)度效率等問題,因此,2017年首次對數(shù)據(jù)庫實現(xiàn)計算存儲分離,計算存儲分離后,再將計算節(jié)點(diǎn)與離線資源混布,達(dá)到節(jié)省大促成本的目的。
作者:呂建樞(呂健)
背景
隨著阿里集團(tuán)電商、物流、大文娛等業(yè)務(wù)的蓬勃發(fā)展,數(shù)據(jù)庫實例以及數(shù)據(jù)存儲規(guī)模不斷增長,在傳統(tǒng)基于單機(jī)的運(yùn)維以及管理模式下,遇到非常多的困難與挑戰(zhàn),主要?dú)w結(jié)為:
機(jī)型采購與預(yù)算問題
在單機(jī)模式下計算資源(CPU和內(nèi)存)與存儲資源(主要為磁盤或者SSD)存在著不可調(diào)和的沖突;計算與存儲資源綁定緊密,無法進(jìn)行多帶帶預(yù)算。數(shù)據(jù)庫存儲時,要么計算資源達(dá)到瓶頸,要么是存儲單機(jī)存儲容量不足。這種綁定模式下,注定了有一種資源必須是浪費(fèi)的。
調(diào)度效率問題
在計算與存儲綁定的情況下,計算資源無法做無狀態(tài)調(diào)度,導(dǎo)致無法實現(xiàn)大規(guī)模低成本調(diào)度,也就無法與在大促與離線資源進(jìn)行混布。
大促成本問題
在計算資源無法做到調(diào)度后,離線混布就不再可能;為了大促需要采購更多的機(jī)器,大促成本上漲嚴(yán)重。
因此,為了解決諸多如成本,調(diào)度效率等問題,2017年首次對數(shù)據(jù)庫實現(xiàn)計算存儲分離;計算存儲分離后,再將計算節(jié)點(diǎn)與離線資源混布,達(dá)到節(jié)省大促成本的目的。
2017年數(shù)據(jù)庫計算存儲分離,
使得數(shù)據(jù)庫進(jìn)行大規(guī)模無狀態(tài)化容器調(diào)度成為可能!
使得數(shù)據(jù)庫與離線業(yè)務(wù)混布成為可能!
使得低成本支持大促彈性成為可能!
在高吞吐下,總存儲集群整體RT表現(xiàn)平穩(wěn),與離線資源聯(lián)合首次發(fā)力,完成2017年“11.11”大促的交易支撐。
計算存儲分離
在所有業(yè)務(wù)中,數(shù)據(jù)庫的計算存儲分離最難,這是大家公認(rèn)的。因為數(shù)據(jù)庫對于存儲的穩(wěn)定性以及單路端到端的時延有著極致的要求:
存儲穩(wěn)定性
在分布式存儲的穩(wěn)定性方面,我們做了非常多的有意探索,并且逐一落地。這些新技術(shù)的落地,使得數(shù)據(jù)庫計算存儲分離成為可能:
單機(jī)failover
單機(jī)failover我們做到業(yè)界的極致,5s內(nèi)完成fo,對整體集群的影響在4%以內(nèi)(以集群規(guī)模24臺為例,集群機(jī)器越多,影響越?。?。另外,我們對分布式存儲的狀態(tài)機(jī)進(jìn)行加速優(yōu)化,使得基于paxos的選舉在秒級內(nèi)進(jìn)行集群視圖更新推送。
長尾時延優(yōu)化
計算存儲分離后,所有的IO都變成了網(wǎng)絡(luò)IO,因此對于單路IO時延影響的因素非常多,如網(wǎng)絡(luò)抖動,慢盤,負(fù)載等,而這些因素也是不可避免的。我們設(shè)計了“副本達(dá)成多數(shù)寫入即返回的策略(commit majority feature)”,能夠有效地使長尾時延抖動做到合理的控制,以滿足業(yè)務(wù)的需求。
以下是commit majority feature開起前后的效果對比。其中“藍(lán)色”為優(yōu)化后的長尾時延,“紅色”為優(yōu)化前長尾時延,效果非常顯著。
流控
我們實現(xiàn)了基于滑動窗口的流控功能,使得集群后臺活動(如backfill和recovery)能根據(jù)當(dāng)前的業(yè)務(wù)流量進(jìn)行自適配的調(diào)整,在業(yè)務(wù)與后臺數(shù)據(jù)恢復(fù)之間做到最佳平衡。
一般如果集群后端活動太低,會影響數(shù)據(jù)恢復(fù),這會提高多盤故障的概率,降低了數(shù)據(jù)的可靠性。我們經(jīng)過優(yōu)化后,通過滑動窗口機(jī)制,做到了前后端數(shù)據(jù)寫入的速動,在不影響業(yè)務(wù)寫入的情況下,盡最大可能提高數(shù)據(jù)恢復(fù)速度,保證多副本數(shù)據(jù)的完整性。
提高數(shù)據(jù)重平衡的速度,也是為了保證整個集群的性能。因為一出現(xiàn)數(shù)據(jù)傾斜時,部分盤的負(fù)載將變大,從而會影響整個集群的時延和吞吐。
流控效果如下:
高可用部署
在高可用部署上,我們引入的故障域的概念。多個數(shù)據(jù)副本存儲在多個故障域,分布到至少4個RACK以上的機(jī)架上,用于保障底層機(jī)柜電源以及網(wǎng)絡(luò)交換設(shè)備引起的故障等。
為了能夠更好的理解數(shù)據(jù)副本存儲位置(data locality),需要知道數(shù)據(jù)散射度(scatter width)的概念。怎么來理解數(shù)據(jù)散射度?
舉個例子:我們定義三個copy set(存放的都是不同的數(shù)據(jù)):{1,2,3},{4,5,6},{7,8,9}。任意一組copy set中存放的數(shù)據(jù)沒有重復(fù),也就是說一份數(shù)據(jù)的三個副本分別放置在:{1,4,7}或者{2,5,8}或者{3,6,9}。那么這個時候,其數(shù)據(jù)散射度遠(yuǎn)小于隨機(jī)組合的C(9,3)。
隨機(jī)組合時,任意3臺機(jī)器Down機(jī)都會存在數(shù)據(jù)丟失。而采用此方案后,只有當(dāng){1,4,7}或者{2,5,8}或者{3,6,9}其中的任意一個組合不可用時,才會影響高可用性,才會有數(shù)據(jù)丟失。
綜上可知,我們引入copy set的目標(biāo)就是盡量的降低數(shù)據(jù)散射度“S”。下圖中兩組replica set,其中每一組的三個副本分別放置到不同的RACK中。
我們的優(yōu)化還有很多,這里不再一一列舉。
數(shù)據(jù)庫吞吐優(yōu)化
當(dāng)所有的IO都變成網(wǎng)絡(luò)IO后,我們要做的就是如何減少單路IO的延遲,當(dāng)然這個是分布式存儲以及網(wǎng)絡(luò)要解的問題。
分布式存儲需要優(yōu)化自身的軟件stack以及底層SPDK的結(jié)合等。
而網(wǎng)絡(luò)層則需要更高帶寬以及低時延技術(shù),如25G TCP或者25G RDMA,或者100G等更高帶寬的網(wǎng)絡(luò)等。
但是我們可以從另外一個角度來考慮問題,如何在時延一定的情況下,提高并發(fā)量,從而來提高吞吐?;蛘哒f在關(guān)鍵路徑上減少IO調(diào)用的次數(shù),從而從某種程度上提高系統(tǒng)的吞吐。
大家知道,影響數(shù)據(jù)庫事務(wù)數(shù)的最關(guān)鍵因素就是事務(wù)commit的速度,commit的速度依賴于寫REDO時的IO吞吐。所謂的REDO也就是大家熟知的WAL(Write Ahead Log)日志。
在臟數(shù)據(jù)flush回存儲時,日志必須先落地,這是因為數(shù)據(jù)庫的Crash Recovery是重度以來于此的。在recovery階段,數(shù)據(jù)庫先利用redo進(jìn)行roll forward,再利用undo進(jìn)行roll backward,最后再撤銷用戶未提交的事務(wù)。
因此,存儲計算分離下,要想在單路IO時延一定時提高吞吐,就必須要優(yōu)化commit提交時的效率。我們通過優(yōu)化redo的寫入方式,讓整個提高吞吐100%左右。另外,也可以優(yōu)化redo group commit的大小,結(jié)合底層存儲stripe能力,做并發(fā)與吞吐優(yōu)化。
數(shù)據(jù)庫原子寫
在數(shù)據(jù)庫內(nèi)存模型中,數(shù)據(jù)頁通常是以16K做為一個bufferpage來管理的。當(dāng)內(nèi)核修改完數(shù)據(jù)之后,會有專門的“checkpoint”線程按一定的頻率將Dirty Page flush到磁盤上。我們知道,通常os的page cache是4K,而一般的文件系統(tǒng)block size也是4K。所以一個16k和page會被分成4個4k的os filesystem block size來存儲,物理上不能保證連續(xù)性。
那么會帶來一個嚴(yán)重的問題,就是當(dāng)fsync語義發(fā)出時,一個16k的pageflush,只完成其中的8k,而這個時候client端crash,不再會有重試;那么整個fsync就只寫了一半,fsync語義被破壞,數(shù)據(jù)不完整。上面的這個場景,我們稱之為“partial write”。
對于MySQL而言,在本地存儲時,使用Double Write Buffer問題不大。但是如果底層變成網(wǎng)絡(luò)IO,IO時延變高時,會使MySQL的整體吞吐下降,而Double Write Buffer會加重這個影響。
我們實現(xiàn)了原子寫,關(guān)閉掉Double Write Buffer,從而在高并發(fā)壓力及高網(wǎng)絡(luò)IO時延下,讓吞吐至少提高50%以上。
網(wǎng)絡(luò)架構(gòu)升級
分布式存儲,對于網(wǎng)絡(luò)的帶寬要求極高,我們引入了25G網(wǎng)絡(luò)。高帶寬能更好的支持阿里集團(tuán)的大促業(yè)務(wù)。另外,對于存儲集群后臺的活動,如數(shù)據(jù)重平衡以及恢復(fù)都提供了有力的保障。
離在線混布
計算存儲分離后,離在線混布成為可能;今年完成數(shù)據(jù)庫離在線混布,為2017年大促節(jié)省了計算資源成本。
在與離線混布的方案中,我們對數(shù)據(jù)庫與離線任務(wù)混跑的場景進(jìn)行了大量的測試。
實踐證明,數(shù)據(jù)庫對時延極度敏感,所以為了達(dá)到數(shù)據(jù)庫混布的目的,我們采用了以下的隔離方案:
CPU與內(nèi)存隔離技術(shù)
CPU的L3是被各個核共享的,如果在一個socket內(nèi)部進(jìn)行調(diào)度,會對數(shù)據(jù)庫業(yè)務(wù)有抖動。因此,在大促場景下,我們會對CPU進(jìn)行獨(dú)立socket 綁定,避免L3 cache干擾;另外,內(nèi)存不超賣。當(dāng)然,大促結(jié)束后,在業(yè)務(wù)平峰時,可以擇機(jī)進(jìn)行調(diào)度和超賣。
網(wǎng)絡(luò)QOS
我們對數(shù)據(jù)庫在線業(yè)務(wù)進(jìn)行網(wǎng)絡(luò)打標(biāo),NetQoS中將數(shù)據(jù)庫計算節(jié)點(diǎn)的所有通信組件加入到高優(yōu)先級group中。
基于分布式存儲的彈性效率
基于分布式存儲,底層分布式存儲支持多點(diǎn)mount,用于將計算節(jié)點(diǎn)快速彈性到離線機(jī)器。
另外,數(shù)據(jù)庫Buffer Pool可以進(jìn)行動態(tài)擴(kuò)容。大促ODPS任務(wù)撤離,DB實例Buffer Pool擴(kuò)容;大促結(jié)束后,Buffer Pool回縮到平峰業(yè)務(wù)時的大小。
雙11大促求證
大促期間,其中一個庫吞吐達(dá)到將近3w tps,RT在1ms以內(nèi),基本上與本地相當(dāng),很好的支撐了2017年大促。這就是我們今年所做的諸多技術(shù)創(chuàng)新的結(jié)果。
展望
目前我們正在進(jìn)行軟硬件結(jié)合(RDMA,SPDK)以及上層數(shù)據(jù)庫引擎與分布式存儲融合優(yōu)化,性能將會超出傳統(tǒng)SATA SSD本地盤的性能。
RDMA和SPDK的特點(diǎn)就是kernel pass-by。未來,我們數(shù)據(jù)庫將引入全用戶態(tài)IO Stack,從計算節(jié)點(diǎn)到存儲節(jié)點(diǎn)使用用戶態(tài)技術(shù),更能充分滿足集團(tuán)電商業(yè)務(wù)對高吞吐低時延的極致要求。
這些網(wǎng)絡(luò)和硬件技術(shù)的發(fā)展,將會給“云計算”帶來更多的可能性,也會給真正的“云計算”新的商業(yè)模式帶來更多憧憬,而我們已經(jīng)在這條陽光的大道上。
歡迎有更多的存儲及數(shù)據(jù)庫內(nèi)核專家一起參與進(jìn)來,一起攜手邁進(jìn)未來。
【引用】
[1] Copysets:Reducing the Frequency of Data Loss in Cloud Storage
[2] CRUSH: Controlled,Scalable, Decentralized Placement of Replicated Data
點(diǎn)擊查看原文
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/17649.html
摘要:阿里巴巴資深技術(shù)專家毗盧毗盧,阿里巴巴資深技術(shù)專家,主導(dǎo)設(shè)計了框架,并基于該框架完成交易平臺架構(gòu)升級改造,目前負(fù)責(zé)商品中心,專注電商領(lǐng)域業(yè)務(wù)建模與工程交付相結(jié)合的研究與平臺推廣。 摘要: 本文是《2017雙11交易系統(tǒng)TMF2.0技術(shù)揭秘》演講整理,主要講解了基于TMF2.0框架改造的交易平臺,通過業(yè)務(wù)管理域與運(yùn)行域分離、業(yè)務(wù)與業(yè)務(wù)的隔離架構(gòu),大幅度提高了業(yè)務(wù)在可擴(kuò)展性、研發(fā)效率以及可...
摘要:每秒實時處理超過萬項監(jiān)控指標(biāo),讓異常無所遁形。此外,對于復(fù)雜數(shù)據(jù)庫故障事后排查故障根源現(xiàn)場還原歷史事件追蹤也迫使我們建設(shè)一個覆蓋線上所有環(huán)境數(shù)據(jù)庫實例事件的監(jiān)控系統(tǒng),做到覆蓋阿里全球子公司所有機(jī)房。所有性能指標(biāo)做到秒級連續(xù)不間斷監(jiān)控。 摘要: 2017雙11再次創(chuàng)下了32.5萬筆/秒交易創(chuàng)建的紀(jì)錄,在這個數(shù)字后面,更是每秒多達(dá)幾千萬次的數(shù)據(jù)庫寫入,如何大規(guī)模進(jìn)行自動化操作、保證數(shù)據(jù)庫的...
閱讀 3080·2021-09-28 09:43
閱讀 911·2021-09-08 09:35
閱讀 1450·2019-08-30 15:56
閱讀 1196·2019-08-30 13:00
閱讀 2742·2019-08-29 18:35
閱讀 1837·2019-08-29 14:07
閱讀 3443·2019-08-29 13:13
閱讀 1339·2019-08-29 12:40