摘要:所以,滴滴運(yùn)維部推出了風(fēng)險(xiǎn)量化平臺(tái),包含變更信用分用來度量服務(wù)的變更操作,比如服務(wù)部署上線,配置變更等監(jiān)控健康分用來度量用戶對(duì)報(bào)警監(jiān)控的使用,從而打造一個(gè)看得見的手,驅(qū)動(dòng)業(yè)務(wù)同學(xué)來一起提高線上穩(wěn)定性。
出品 | 滴滴技術(shù)
作者 | 張健
在大家的印象中,運(yùn)維人員更多的是從屬業(yè)務(wù)的角色。在傳統(tǒng)的企業(yè)IT中,沒有快速的產(chǎn)品迭代,沒有每天成百上千次的服務(wù)發(fā)布和伸縮容,這樣的角色看似沒有問題。但在如今的 DevOps 時(shí)代,日常的運(yùn)維工作中每天要應(yīng)對(duì)成百上千次的服務(wù)發(fā)布與線上操作。如果運(yùn)維人員(即SRE)仍然只是被動(dòng)的去應(yīng)對(duì)這種變化,所造成的結(jié)果,必然是疲于應(yīng)付,最終會(huì)對(duì)全平臺(tái)的業(yè)務(wù)穩(wěn)定性造成很大隱患。
那么,在這種量變引起質(zhì)變的挑戰(zhàn)中,運(yùn)維人員應(yīng)該發(fā)揮怎樣的作用,才能適應(yīng)新業(yè)務(wù)的挑戰(zhàn)呢?筆者之前曾就職于IBM Cloud部門,現(xiàn)在就職于滴滴運(yùn)維部,長(zhǎng)期從事自動(dòng)化運(yùn)維方面的工作,下面就結(jié)合自己之前的經(jīng)驗(yàn)和目前的工作,談?wù)勛约旱囊恍┮娊狻?/p>
一. 來自業(yè)務(wù)的挑戰(zhàn)
無論是在滴滴還是在之前的部門,在業(yè)務(wù)發(fā)展的初期階段,都不可避免的經(jīng)歷了粗獷型的擴(kuò)張階段,比如業(yè)務(wù)量指數(shù)級(jí)上升,用戶量急劇增加,每時(shí)每刻都有服務(wù)模塊的迭代。
在業(yè)務(wù)優(yōu)先的前提下,運(yùn)維人員承擔(dān)著巨大的運(yùn)維壓力。以監(jiān)控為例,用戶添加監(jiān)控不規(guī)范,會(huì)造成報(bào)警頻發(fā),報(bào)警有效性不足,導(dǎo)致的后果就是容易讓真正有價(jià)值的報(bào)警湮沒在海量數(shù)據(jù)中,同時(shí),也會(huì)造成對(duì)報(bào)警資源的浪費(fèi),比如,研發(fā)同學(xué)不區(qū)分測(cè)試、線上環(huán)境,隨意的添加報(bào)警采集指標(biāo),會(huì)對(duì)監(jiān)控系統(tǒng)的存儲(chǔ),查詢帶來極大的挑戰(zhàn)。再比如部署系統(tǒng),不按照規(guī)范,在高峰期更新服務(wù),一旦出問題,會(huì)造成整個(gè)應(yīng)用的服務(wù)不可用。這樣的例子有很多。
二. 如何應(yīng)對(duì)
如果上述的問題一直延續(xù)下去,運(yùn)維工作必然帶來巨大的挑戰(zhàn),并且會(huì)嚴(yán)重影響線上服務(wù)的穩(wěn)定性。面對(duì)這些問題,滴滴運(yùn)維團(tuán)隊(duì)的同學(xué)也在一起思考,運(yùn)維應(yīng)該不僅僅去被動(dòng)的適應(yīng)業(yè)務(wù),而是要從平臺(tái)穩(wěn)定性出發(fā),去指導(dǎo)研發(fā)同學(xué),如何規(guī)范的執(zhí)行變更,如何合理的使用監(jiān)控資源以及其它公司IT基礎(chǔ)設(shè)施。
我們想到的解決方法就是“數(shù)據(jù)說話”,盡可能的去量化監(jiān)控、部署及基礎(chǔ)組件(MySQL, Codis, ZK)的使用。然后用數(shù)字去指導(dǎo)研發(fā)的同學(xué),盡可能的去匹配我們給出的“最佳實(shí)踐”,從而減少造成線上業(yè)務(wù)不穩(wěn)定的隱患。
所以,滴滴運(yùn)維部推出了“風(fēng)險(xiǎn)量化平臺(tái)”,包含“變更信用分”(用來度量服務(wù)的變更操作,比如服務(wù)部署上線,配置變更等)、“監(jiān)控健康分”(用來度量用戶對(duì)報(bào)警監(jiān)控的使用),從而打造一個(gè)“看得見的手”,驅(qū)動(dòng)業(yè)務(wù)同學(xué)來一起提高線上穩(wěn)定性。
| 數(shù)據(jù)驅(qū)動(dòng)的難點(diǎn)有三個(gè)方面
首先是如何獲取數(shù)據(jù)?這是“風(fēng)險(xiǎn)量化平臺(tái)”的基礎(chǔ)。使用監(jiān)控系統(tǒng),部署一個(gè)服務(wù),執(zhí)行一次配置變更,都是一個(gè)個(gè)用戶操作,很難用數(shù)字去表達(dá)。為此我們結(jié)合運(yùn)維經(jīng)驗(yàn),基于對(duì)操作每個(gè)步驟的詳盡輸出,近可能的去用數(shù)字維度來衡量用戶操作。比如以部署為例,會(huì)以灰度發(fā)布中間的暫停時(shí)間是否滿足一定時(shí)長(zhǎng),是否有在上線高峰期操作記錄,部署過程中是否執(zhí)行了double-check,在哪個(gè)階段執(zhí)行了回滾等等,來形成一個(gè)個(gè)的打分項(xiàng)。
其次是如何去制定風(fēng)險(xiǎn)量化的標(biāo)準(zhǔn),也就是如何用各個(gè)指標(biāo)去構(gòu)造一個(gè)最佳實(shí)踐。這更像是一個(gè)數(shù)學(xué)建模,里面涉及到大量的運(yùn)維經(jīng)驗(yàn)積累,以我們新推出的監(jiān)控健康分為例,我們遵循著“有服務(wù)必有監(jiān)控,有報(bào)警必須處理”的原則,對(duì)于每個(gè)服務(wù),要求衡量的標(biāo)準(zhǔn)包括,是否有存活指標(biāo)監(jiān)控(進(jìn)程、端口等);是否有基礎(chǔ)指標(biāo)監(jiān)控(如cpu.idle,mem.used, disk.used);是否添加了上下游監(jiān)控,報(bào)警是否有效,即報(bào)警接收人是否過多(因?yàn)榇蠹叶际盏綀?bào)警,最終的結(jié)果,往往意味著大家都不會(huì)處理報(bào)警),報(bào)警是否被及時(shí)處理(運(yùn)維領(lǐng)域也有MTTA, MTTR,即報(bào)警平均響應(yīng)時(shí)間,和報(bào)警及時(shí)處理時(shí)間這樣的概念);是否配置了監(jiān)控大盤,方便我們?nèi)粘Q矙z。
各個(gè)量化項(xiàng)目占據(jù)不同的權(quán)重(如下方的監(jiān)控健康分剖析圖), 比如我們根據(jù)滴滴目前的服務(wù)特點(diǎn),存活指標(biāo)占比40%, 報(bào)警有效性占比30%,推動(dòng)業(yè)務(wù)去收斂報(bào)警,和完善監(jiān)控。監(jiān)控健康分以80分為及格線,尋找出監(jiān)控漏洞,并指導(dǎo)用戶加以改進(jìn)。 用這樣的方法,可以讓研發(fā)同學(xué)盡可能的減少漏配監(jiān)控的事情發(fā)生,提高線上服務(wù)的穩(wěn)定性。
最后的難點(diǎn)是如何驅(qū)動(dòng)?這是我們現(xiàn)在著力想的一個(gè)點(diǎn)。風(fēng)險(xiǎn)量化實(shí)際上就是總結(jié)前人踩過的坑,趟過的雷,去告訴后面的同學(xué),提前來規(guī)避風(fēng)險(xiǎn),這是運(yùn)維部門對(duì)公司業(yè)務(wù)穩(wěn)定性的一大貢獻(xiàn)。
現(xiàn)在已有的做法是如下圖(各部門變更信用分排名圖)所示,通過計(jì)算、打分、全公司各個(gè)業(yè)務(wù)線排名,將風(fēng)險(xiǎn)量化數(shù)據(jù)和反應(yīng)出的問題推送給各個(gè)業(yè)務(wù)線的leader。以競(jìng)賽方式去推動(dòng)各個(gè)業(yè)務(wù)線重視風(fēng)險(xiǎn)量化。我們還計(jì)劃以監(jiān)控健康分去驅(qū)動(dòng)報(bào)警有效性的建設(shè),完善報(bào)警值班制度,避免群發(fā)報(bào)警又無人處理,報(bào)警配置不合理這種現(xiàn)象的發(fā)生。
三. 效果如何
目前的風(fēng)險(xiǎn)量化體系包含“變更信用分”,“監(jiān)控健康分”,其中變更信用分已經(jīng)上線一年多了,在2018年,從下圖能明顯看到信用分在穩(wěn)步上升。
帶來結(jié)果是什么呢? 下面是本年度故障case統(tǒng)計(jì)圖,能明顯的看到這種趨勢(shì),故障case數(shù)量隨著變更信用分的提高在穩(wěn)步下降??紤]到同時(shí)期的變更數(shù)量也在一直增加,這種下降趨勢(shì)就更加明顯了。
我們期望其它的信用分機(jī)制,也能給業(yè)務(wù)穩(wěn)定性帶來這樣積極的結(jié)果。
四、未來展望
對(duì)于未來的展望,首先希望能對(duì)盡可能多的涉及線上操作的內(nèi)容進(jìn)行風(fēng)險(xiǎn)量化,比如業(yè)務(wù)使用的中間件/基礎(chǔ)組件,業(yè)務(wù)中涉及安全的服務(wù)是否遵循了相應(yīng)的規(guī)范,是否有密碼/數(shù)據(jù)泄漏風(fēng)險(xiǎn)。
其次,我們?nèi)匀恍枰獙?duì)已有的運(yùn)維經(jīng)驗(yàn)進(jìn)行總結(jié),結(jié)合經(jīng)驗(yàn),利用量化分?jǐn)?shù)去構(gòu)建“最佳實(shí)踐”,指導(dǎo)大家去遵守。
最后是如何去驅(qū)動(dòng),將總結(jié)的數(shù)據(jù)價(jià)值,最大化的發(fā)揮出來。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/8103.html
摘要:北京時(shí)間月日月日,由和中國(guó)國(guó)際人才交流基金會(huì)聯(lián)合主辦的第七屆全球軟件案例研究峰會(huì)簡(jiǎn)稱在北京國(guó)家會(huì)議中心圓滿落幕。本屆峰會(huì),來自阿里美團(tuán)百度平安銀行等企業(yè)的講師分別從企業(yè)轉(zhuǎn)型及研發(fā)效能方面分享敏捷和的實(shí)踐細(xì)節(jié)和操作經(jīng)驗(yàn)。 北京時(shí)間11月30日-12月3日,由msup和中國(guó)國(guó)際人才交流基金會(huì)聯(lián)合主辦的第七屆全球軟件案例研究峰會(huì)(簡(jiǎn)稱:TOP100summit)在北京國(guó)家會(huì)議中心圓滿落幕。T...
摘要:滴滴機(jī)器學(xué)習(xí)平臺(tái)的治理思路主要是減少重復(fù)提高效率。本文將對(duì)滴滴的機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行全面解讀,重點(diǎn)分享機(jī)器學(xué)習(xí)平臺(tái)不同階段所要解決的問題,以及解決問題的思路和技術(shù)方案。綜合和各自的利弊,滴滴機(jī)器學(xué)習(xí)平臺(tái)開始由架構(gòu)向建構(gòu)遷移。 前言:現(xiàn)在很多互聯(lián)網(wǎng)公司都有自己的機(jī)器學(xué)習(xí)平臺(tái),冠以之名雖然形形色色,但就平臺(tái)所要解決的問題和技術(shù)選型基本還是大同小異。所謂大同是指大家所要處理的問題都相似,技術(shù)架構(gòu)...
閱讀 2889·2021-09-10 10:51
閱讀 2244·2021-09-02 15:21
閱讀 3244·2019-08-30 15:44
閱讀 921·2019-08-29 18:34
閱讀 1684·2019-08-29 13:15
閱讀 3357·2019-08-26 11:37
閱讀 2723·2019-08-26 10:46
閱讀 1136·2019-08-26 10:26