摘要:年月日,遷移服務(wù)解決方案在城市峰會中正式發(fā)布。遷移服務(wù)向分布式架構(gòu)升級的直接路徑基于上述問題和挑戰(zhàn),同時經(jīng)過螞蟻十年數(shù)據(jù)庫架構(gòu)升級的先進(jìn)經(jīng)驗,螞蟻金服為客戶打造了這款一站式數(shù)據(jù)遷移解決方案遷移服務(wù),簡稱。
2019年1月4日,OceanBase遷移服務(wù)解決方案在ATEC城市峰會中正式發(fā)布。螞蟻金服資深技術(shù)專家?guī)熚膮R和技術(shù)專家韓谷悅共同分享了OceanBase遷移服務(wù)的重要特性和業(yè)務(wù)實踐。
螞蟻數(shù)據(jù)庫架構(gòu)的三代升級史在過去的十多年時間里,螞蟻在整個基礎(chǔ)數(shù)據(jù)庫架構(gòu)上一共經(jīng)歷了三代升級。第一代數(shù)據(jù)架構(gòu)是構(gòu)建在IOE的基礎(chǔ)之上——IBM的小型機(jī)、Oracle的商業(yè)數(shù)據(jù)庫,還有EMC的共享存儲。基于第一代IOE架構(gòu)的運維成本是非常高的,同時穩(wěn)定性的挑戰(zhàn)也是非常大的。隨著業(yè)務(wù)的快速發(fā)展,這套架構(gòu)已經(jīng)完全沒有辦法適應(yīng)業(yè)務(wù)發(fā)展的增速。
隨之誕生的是第二代架構(gòu),第二代架構(gòu)的主體是OE——也就是Oracle和EMC,加上螞蟻自身的分布式中間件,解決了業(yè)務(wù)的水平和垂直的彈性能力。這一代架構(gòu)其實伴隨著螞蟻走了很多年。
隨著4G、5G時代的到來和金融的普及化,人們的生活越來越離不開移動支付,業(yè)務(wù)井噴式的發(fā)展給底層的數(shù)據(jù)庫提出了更高的要求。這些要求包括更高的穩(wěn)定性,快速恢復(fù)能力和極致的彈性能力等。
于是最終演進(jìn)到了我們?nèi)缃竦牡谌軜?gòu)。第三代架構(gòu)是由OceanBase為代表的金融級云數(shù)據(jù)庫和分布式中間件所構(gòu)成。
數(shù)據(jù)庫架構(gòu)升級的挑戰(zhàn)伴隨著整個螞蟻的發(fā)展,整個數(shù)據(jù)庫的架構(gòu)也僅僅演進(jìn)了三代。這其中一個很重要的原因就是對于任何企業(yè)而言,整個數(shù)據(jù)庫的架構(gòu)升級都是一件非常有挑戰(zhàn)的事情。
螞蟻金服資深技術(shù)專家?guī)熚膮R說道,“用一個我們內(nèi)部經(jīng)常說的比喻,就是數(shù)據(jù)庫的架構(gòu)升級就好像是在給一個高速運行的飛機(jī)更換引擎?!?/strong>
更換引擎的目的是為了擁有更好的動力,做更多技術(shù)上的創(chuàng)新。但是橫亙在眼前的問題是,如何才能做到穩(wěn)妥創(chuàng)新,保證駕駛中的飛機(jī)平穩(wěn)順利的運行,這其實是有非常大的挑戰(zhàn)。
在過去三代架構(gòu)的演進(jìn)中我們可以看到,本質(zhì)上每一代架構(gòu)的迭代基本上都是以兩到三年為周期,這其中會有非常高的人力投入和成本開銷。
第二個挑戰(zhàn)就是從傳統(tǒng)的商業(yè)數(shù)據(jù)庫遷移到OceanBase數(shù)據(jù)庫之上,我們?nèi)绾伪WC遷移過程中以及遷移以后的穩(wěn)定性。
另外一個非常大的挑戰(zhàn)就是數(shù)據(jù)質(zhì)量,在金融企業(yè)里,數(shù)據(jù)承載的不僅只是錢,更承載了數(shù)以億計用戶的信任。所以數(shù)據(jù)一條不能丟,一條不能錯,這是我們做數(shù)據(jù)庫的底線。
當(dāng)然,包括兼容性問題和性能風(fēng)險也給數(shù)據(jù)庫的架構(gòu)升級帶來重重挑戰(zhàn)。
OceanBase遷移服務(wù):向分布式架構(gòu)升級的直接路徑基于上述問題和挑戰(zhàn),同時經(jīng)過螞蟻十年數(shù)據(jù)庫架構(gòu)升級的先進(jìn)經(jīng)驗,螞蟻金服為客戶打造了這款一站式數(shù)據(jù)遷移解決方案——OceanBase遷移服務(wù)(OceanBaseMigration Service,簡稱OMS)。
OMS的發(fā)展演進(jìn)
OMS的演進(jìn)是以業(yè)務(wù)為驅(qū)動,并且與OceanBase的架構(gòu)升級和不斷發(fā)展密不可分。
早在2014-2015年期間,螞蟻主站上的一些核心業(yè)務(wù),包括大家熟知的交易業(yè)務(wù),支付業(yè)務(wù)和會員業(yè)務(wù)等,需要從Oracle遷移到OceanBase上。當(dāng)時的OMS還是以一個工具類、模塊化的形態(tài)支撐著這些項目。
所以在2015年我們開始對OMS的方案進(jìn)行全面的調(diào)研,力求沉淀出通用的系統(tǒng)化的解決方案。
在2016年,OMS已經(jīng)有了平臺化的架構(gòu),引入了大規(guī)模編排的思想,將整個遷移特別是切換過程中繁瑣易錯的環(huán)節(jié)全部集成到平臺。這一時期,OceanBase也完成了從0.5版本到1.0版本的架構(gòu)升級,這一年OMS還支撐了網(wǎng)商銀行、印度PayTM以及主站的核心業(yè)務(wù)升級到OceanBase 1.0版本。
到了2018年的時候,無論在基礎(chǔ)功能層面還是任務(wù)編排層面,OMS都已經(jīng)被打磨得日趨完善。今年OMS已經(jīng)支持了螞蟻森林,螞蟻商戶平臺以及眾多大量核心及非核心的業(yè)務(wù)從MySQL遷移到OceanBase之上。與此同時,在外部業(yè)務(wù)包括很多已經(jīng)上線OceanBase的商業(yè)銀行,也已經(jīng)驗證了使用OMS一鍵遷移到OceanBase的能力。
OMS的方案優(yōu)勢
OceanBase遷移服務(wù)其實主要解決了五個重要的問題。
1.負(fù)載回放驗證:其中第一個核心的問題就是負(fù)載回放驗證,通過采集源端數(shù)據(jù)庫的SQL流量,在目標(biāo)庫OceanBase上回放,可以驗證其在OceanBase上的功能是否兼容、性能是否出現(xiàn)問題等。同時基于螞蟻DBA十多年的經(jīng)驗沉淀,OMS會為客戶提供性能等方面的調(diào)優(yōu)建議。
2.秒級數(shù)據(jù)校驗:第二點就是數(shù)據(jù)校驗,OMS有三層數(shù)據(jù)校驗,可以做到秒級的延遲。舉一個例子,比如說我們想把傳統(tǒng)商業(yè)數(shù)據(jù)庫替換成OceanBase,如果在遷移過程中任何一條數(shù)據(jù)出現(xiàn)了錯誤,在一秒鐘內(nèi)就可以快速發(fā)現(xiàn)。校驗的延遲可以完全保證在一秒以內(nèi),根據(jù)螞蟻線上的經(jīng)驗,大概在100-200毫秒之間。
3.分鐘級即時回滾:第三點也是最重要的一點,就是OMS有隨時回滾的能力,而且回滾是無損的。這也是我們前面所強(qiáng)調(diào)的穩(wěn)妥創(chuàng)新的基石。
4.多種數(shù)據(jù)庫類型支持:目前OMS支持源端數(shù)據(jù)庫類型有Oracle、MySQL、OceanBase等等,支持全量遷移和增量數(shù)據(jù)同步。
5.一鍵完成遷移:整個數(shù)據(jù)遷移鏈路和回滾機(jī)制的搭建基本上都是通過一鍵操作完成,使用簡便。
OMS的技術(shù)架構(gòu)
OMS的核心方案其實非常簡單,我們把OceanBase變成Oracle/MySQL的一個備庫。
傳統(tǒng)的商業(yè)數(shù)據(jù)庫一般都是有主庫和備庫的:主庫承擔(dān)寫的流量,如果主庫出現(xiàn)問題,我們會把數(shù)據(jù)切到備庫,然后通過OMS提供的一整套虛擬主備庫的解決方案完成切換。比如原來Oracle有一個主庫一個備庫,然后OceanBase其實變成了一個虛擬的備庫。
整個數(shù)據(jù)庫架構(gòu)的升級也會變得異常簡單,簡單到只是做了一個主備切換?;貪L也會變得非常簡單,其實也是做了一次主備切換。
從OMS的整體架構(gòu)來看,其實一個非常關(guān)鍵的點就是,我們在傳統(tǒng)的商業(yè)數(shù)據(jù)庫和OceanBase之間建立了一套虛擬的主備鏈路,整個OMS里用到的所有組件,其實都是在螞蟻和阿里有很多年技術(shù)沉淀的,也都是基于真實場景所產(chǎn)生的。
OMS的遷移流程
OceanBase遷移服務(wù)的整體遷移流程其實只有七步。
1.評估:首先第一步是通過負(fù)載回放工具做兼容性分析;
2.PoC:接下來OceanBase云平臺可以幫助客戶部署一套PoC集群;
3.預(yù)遷移:然后OMS把線上的Oracle的數(shù)據(jù)預(yù)遷移到一個測試庫里;
4.驗證:在這個測試庫里用負(fù)載回放工具去回放這些SQL,然后找到SQL里不兼容,性能或者數(shù)據(jù)質(zhì)量不滿足預(yù)期的部分,并提供優(yōu)化建議;
5.正式遷移:前四步做完了以后,業(yè)務(wù)需要調(diào)整或者需要優(yōu)化的SQL已經(jīng)完成優(yōu)化,然后就可以正式遷移了。首先把原有的全量數(shù)據(jù)遷過來,然后再把增量變化的那部分?jǐn)?shù)據(jù)實時同步過來;
6.校驗:等到所有的數(shù)據(jù)準(zhǔn)備好以后,然后我們繼續(xù)完成三級校驗;
7.切換和回滾:等到所有的校驗都完成以后,可以一鍵完成切換和回滾功能。
通過這七步就可以輕松完成從傳統(tǒng)商業(yè)數(shù)據(jù)庫到分布式數(shù)據(jù)庫的完整遷移。
螞蟻商戶平臺基于OMS的業(yè)務(wù)實踐螞蟻商戶平臺承載著商戶檔案數(shù)據(jù)信息,訂購關(guān)系、簽約信息的數(shù)據(jù)和相應(yīng)的服務(wù)能力。其中一部分業(yè)務(wù)使用的是MySQL數(shù)據(jù)庫,還有一部分核心業(yè)務(wù)使用的是Oracle數(shù)據(jù)庫。
隨著商戶的快速增長以及業(yè)務(wù)場景的不斷豐富,商戶平臺數(shù)據(jù)增長迅速,數(shù)據(jù)規(guī)模相當(dāng)龐大。尤其是MySQL的單表瓶頸日益明顯,DDL變更、DML更新的性能與風(fēng)險已經(jīng)無法承擔(dān)。
螞蟻金服技術(shù)專家韓谷悅介紹道,“OceanBase能夠支持?jǐn)?shù)據(jù)的無限擴(kuò)展,滿足商戶業(yè)務(wù)的容量與性能需求。那么如果我們換一種數(shù)據(jù)庫底盤,其實所要面對的性能、穩(wěn)定性和數(shù)據(jù)質(zhì)量的風(fēng)險同樣不可避免?!?/strong>
從螞蟻商戶平臺的業(yè)務(wù)實踐來看,使用OMS遷移與傳統(tǒng)遷移進(jìn)行對比,我們可以看到:
· 業(yè)務(wù)評估和改造
過去通常一個業(yè)務(wù)少則花費1-2個月的時間去做改造和適配;那么基于OMS自動化的SQL兼容性評估和負(fù)載回放的能力,螞蟻商務(wù)平臺業(yè)務(wù)的改造大概只用了一個星期的時間。
· 數(shù)據(jù)遷移和校驗
客觀來講,遷移的總時長主要取決于業(yè)務(wù)數(shù)據(jù)模型,數(shù)據(jù)量和網(wǎng)絡(luò)環(huán)境。在提高遷移效率方面,OMS目前增量遷移的延遲僅為毫秒級,跨城情況下最長只需要3秒。并且針對校驗出的數(shù)據(jù)差異提供補(bǔ)齊的SQL和訂正方案,使得遷移和校驗的整體效率有了大幅度的提升。
· 業(yè)務(wù)切換
其實在切換之前,往往需要制定嚴(yán)密的切流方案和Failover方案,整個切換過程中需要檢查與校驗的細(xì)節(jié)非常繁瑣,任何一步疏忽都有可能造成數(shù)據(jù)不一致的問題。那么OMS通過引入大規(guī)模編排的思想,把所有繁瑣復(fù)雜的環(huán)節(jié)通通落到平臺當(dāng)中。所以從原來業(yè)務(wù)切換需要用時1-2周時間, 使用OMS后螞蟻商戶平臺業(yè)務(wù)無論是切讀還是切寫的過程中都只用了幾分鐘的時間。
· 業(yè)務(wù)回滾
在過去,遷移之后的業(yè)務(wù)回滾要擔(dān)負(fù)重大的決策風(fēng)險,OMS使得業(yè)務(wù)回滾就像一次主備切換,可以瞬間完成并且不丟數(shù)據(jù),所以讓業(yè)務(wù)回滾不再成為難題。商戶業(yè)務(wù)整體遷移的過程中也發(fā)生過業(yè)務(wù)抖動,使用OMS回滾的時候從登陸系統(tǒng)到完成回滾也只用了幾分鐘的時間。
所以全程下來螞蟻商戶平臺這個業(yè)務(wù)的遷移時間大概在三個多星期的時間完成,那么無論從人力成本還是時間成本上,OMS都極大地提升了數(shù)據(jù)庫的整體遷移效率。
最后,韓谷悅為大家展示了OMS一鍵遷移的demo演示。
當(dāng)前, 越來越多的企業(yè)已經(jīng)認(rèn)識到分布式架構(gòu)在實現(xiàn)業(yè)務(wù)靈活擴(kuò)展以及敏捷開發(fā)等方面的巨大價值。OceanBase不斷通過產(chǎn)品端的革新,為傳統(tǒng)企業(yè)輸送“互聯(lián)網(wǎng)基因”,幫助更多客戶向分布式架構(gòu)轉(zhuǎn)型。
同時OceanBase也在不斷提高服務(wù)客戶的深度和廣度。深度意味著在同樣的業(yè)務(wù)場景下,隨著業(yè)務(wù)的發(fā)展和體量的壯大,幫助更多企業(yè)承擔(dān)起業(yè)務(wù)所帶來的極致壓力。廣度則針對的是隨著新型技術(shù)形態(tài)和業(yè)務(wù)場景的出現(xiàn),幫助更多企業(yè)快速響應(yīng),通過技術(shù)創(chuàng)新而適應(yīng)變化所帶來的新的市場契機(jī)。
OceanBase致力于將螞蟻自身業(yè)務(wù)多年沉淀下來的最濃縮,最經(jīng)典和最普世的方法論輸出給廣大的企業(yè)客戶,同時做到深度和廣度并存,真正幫助客戶實現(xiàn)穩(wěn)妥創(chuàng)新。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/11953.html
摘要:年月日,遷移服務(wù)解決方案在城市峰會中正式發(fā)布。遷移服務(wù)向分布式架構(gòu)升級的直接路徑基于上述問題和挑戰(zhàn),同時經(jīng)過螞蟻十年數(shù)據(jù)庫架構(gòu)升級的先進(jìn)經(jīng)驗,螞蟻金服為客戶打造了這款一站式數(shù)據(jù)遷移解決方案遷移服務(wù),簡稱。 2019年1月4日,OceanBase遷移服務(wù)解決方案在ATEC城市峰會中正式發(fā)布。螞蟻金服資深技術(shù)專家?guī)熚膮R和技術(shù)專家韓谷悅共同分享了OceanBase遷移服務(wù)的重要特性和業(yè)務(wù)實踐...
摘要:簡介本文首發(fā)公眾號一名打字員據(jù)悉,年的月份,螞蟻金服已經(jīng)宣布,螞蟻金服及阿里巴巴自研的關(guān)系型數(shù)據(jù)庫已經(jīng)支撐起和淘寶的日常業(yè)務(wù)需求,成功替換了之前所采用的單機(jī)數(shù)據(jù)庫如或者開源的。 簡介 Tip:本文首發(fā)公眾號【一名打字員】 據(jù)悉,17年的4月份,螞蟻金服已經(jīng)宣布,螞蟻金服及阿里巴巴自研的關(guān)系型數(shù)據(jù)庫OceanBase已經(jīng)支撐起Tmall和淘寶的日常業(yè)務(wù)需求,成功替換了之前所采用的單機(jī)數(shù)據(jù)...
閱讀 1256·2021-11-22 13:54
閱讀 1441·2021-11-22 09:34
閱讀 2723·2021-11-22 09:34
閱讀 4035·2021-10-13 09:39
閱讀 3353·2019-08-26 11:52
閱讀 3377·2019-08-26 11:50
閱讀 1545·2019-08-26 10:56
閱讀 1926·2019-08-26 10:44