成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

AI時(shí)代的全鏈路監(jiān)控,阿里工程師怎么做?

jollywing / 1824人閱讀

摘要:背景近年來(lái),隨著阿里新業(yè)務(wù)新技術(shù)的快速發(fā)展,傳統(tǒng)的業(yè)務(wù)總量監(jiān)控大盤(pán)已經(jīng)越來(lái)越不能滿足監(jiān)控需求,主要表現(xiàn)在以下幾個(gè)方面缺乏全局視角監(jiān)控大盤(pán)主要反映的是單個(gè)業(yè)務(wù)或應(yīng)用的運(yùn)行狀態(tài),缺少全局的業(yè)務(wù)視角能反應(yīng)整個(gè)業(yè)務(wù)域的上下游整體的運(yùn)行情況。

背景

近年來(lái),隨著阿里新業(yè)務(wù)、新技術(shù)的快速發(fā)展,傳統(tǒng)的業(yè)務(wù)總量“監(jiān)控大盤(pán)”已經(jīng)越來(lái)越不能滿足監(jiān)控需求,主要表現(xiàn)在以下幾個(gè)方面:

缺乏全局視角:“監(jiān)控大盤(pán)”主要反映的是單個(gè)業(yè)務(wù)或應(yīng)用的運(yùn)行狀態(tài),缺少全局的業(yè)務(wù)視角能反應(yīng)整個(gè)“業(yè)務(wù)域”的上下游整體的運(yùn)行情況。比如交易系統(tǒng)成功率下跌,想看看是不是優(yōu)惠出問(wèn)題了,但是不知道“優(yōu)惠”的業(yè)務(wù)監(jiān)控在哪里,只能依賴"優(yōu)惠"的同學(xué)去排查,釘釘電話溝通,大家一起拼湊信息,上下游協(xié)調(diào)成本很高。

監(jiān)控標(biāo)準(zhǔn)不統(tǒng)一:一直以來(lái)“業(yè)務(wù)監(jiān)控”都是自定義的,依賴開(kāi)發(fā)人員的個(gè)人經(jīng)驗(yàn),往往系統(tǒng)、業(yè)務(wù)監(jiān)控混在一起,沒(méi)有標(biāo)準(zhǔn),業(yè)務(wù)之間不能比較;各系統(tǒng)監(jiān)控能力參差不齊,很容易出現(xiàn)業(yè)務(wù)鏈路中的監(jiān)控?cái)鄬?;業(yè)務(wù)監(jiān)控缺少一套行之有效的方法論,新人或者新業(yè)務(wù)對(duì)于業(yè)務(wù)要怎么監(jiān)控,不知道如何下手、不知道自己配的監(jiān)控是否覆蓋全面,只有等到故障發(fā)生以后才去補(bǔ)監(jiān)控。

缺少業(yè)務(wù)視角:隨著阿里業(yè)務(wù)飛速發(fā)展,特別是“大中臺(tái)”的建設(shè),使得傳統(tǒng)的“總量”監(jiān)控已經(jīng)不能滿足需求,比如一個(gè)“交易”中臺(tái)業(yè)務(wù)就會(huì)有數(shù)十個(gè)“業(yè)務(wù)方”調(diào)用,單純的總量監(jiān)控會(huì)把小調(diào)用量的業(yè)務(wù)淹沒(méi),必須按每個(gè)業(yè)務(wù)方的“業(yè)務(wù)身份”進(jìn)行監(jiān)控。對(duì)于像“盒馬”、“淘鮮達(dá)”這樣的新零售業(yè)務(wù),這樣的問(wèn)題更加突出,一家門(mén)店出現(xiàn)交易異常對(duì)于“交易總量”來(lái)說(shuō)是微不足道的,但是對(duì)這件門(mén)店的客戶體驗(yàn)來(lái)說(shuō)是災(zāi)難性的。

監(jiān)控配置成本高:“業(yè)務(wù)監(jiān)控”一直都是由“開(kāi)發(fā)人員”純手工打造,需要經(jīng)過(guò)日志埋點(diǎn)、監(jiān)控配置、報(bào)警閾值設(shè)置,整個(gè)過(guò)程費(fèi)時(shí)費(fèi)力,缺乏自動(dòng)化、智能化監(jiān)控的手段,這也是造成各系統(tǒng)監(jiān)控能力參差不齊的重要原因,一些新業(yè)務(wù)因?yàn)闊o(wú)力投入大量精力配置監(jiān)控,導(dǎo)致業(yè)務(wù)監(jiān)控能力缺失。

全景式監(jiān)控

業(yè)務(wù)全鏈路監(jiān)控從業(yè)務(wù)的視角出發(fā),監(jiān)控整個(gè)業(yè)務(wù)流程的健康狀況,無(wú)需多個(gè)系統(tǒng)切換,直觀看到全局和上下游,方便快速發(fā)現(xiàn)、定位問(wèn)題。

建立了完整的“業(yè)務(wù)監(jiān)控模型”,為業(yè)務(wù)建立起一個(gè)從“宏觀”到“微觀”的全景式業(yè)務(wù)監(jiān)控體系,結(jié)束了業(yè)務(wù)監(jiān)控沒(méi)有標(biāo)準(zhǔn),只能純手工打造的歷史。業(yè)務(wù)監(jiān)控模型主要包括3部分:

● 業(yè)務(wù)域:一個(gè)完整的業(yè)務(wù)或產(chǎn)品稱為“業(yè)務(wù)域”,如電商的“交易域”、“營(yíng)銷域”、“支付域”等。

● 業(yè)務(wù)活動(dòng):業(yè)務(wù)域中的的核心業(yè)務(wù)用例叫做“業(yè)務(wù)活動(dòng)”,如交易域的“下單確認(rèn)”、“創(chuàng)建訂單”等,業(yè)務(wù)活動(dòng)是整個(gè)監(jiān)控模型的核心,每個(gè)業(yè)務(wù)活動(dòng)都會(huì)有標(biāo)準(zhǔn)的【黃金指標(biāo)】來(lái)反應(yīng)自身的健康狀況,業(yè)務(wù)活動(dòng)之間建立上下游關(guān)系就形成了業(yè)務(wù)鏈路。

● 系統(tǒng)服務(wù):業(yè)務(wù)活動(dòng)中的依賴的關(guān)鍵方法稱作“系統(tǒng)服務(wù)”,如“下單確認(rèn)”包含:查詢會(huì)員、查詢商品、查詢優(yōu)惠等關(guān)鍵方法,每個(gè)系統(tǒng)服務(wù)也通過(guò)【黃金指標(biāo)】來(lái)表示其健康狀況。

監(jiān)控流程

以“監(jiān)控模型”為基礎(chǔ),我們總結(jié)出了一套如何做好“業(yè)務(wù)監(jiān)控”的方法論,并將其沉淀到產(chǎn)品中。

● 梳理關(guān)鍵業(yè)務(wù): 業(yè)務(wù)方需要梳理出自己的核心業(yè)務(wù)是什么(業(yè)務(wù)活動(dòng)),以及這些核心業(yè)務(wù)的關(guān)鍵依賴有哪些(系統(tǒng)服務(wù))。

● 監(jiān)控?cái)?shù)據(jù)埋點(diǎn):提供了無(wú)侵入的配置化監(jiān)控SDK,只要將“業(yè)務(wù)活動(dòng)”和“系統(tǒng)服務(wù)”對(duì)應(yīng)的方法填寫(xiě)到配置文件中即可,系統(tǒng)會(huì)自動(dòng)收集,計(jì)算,上報(bào)監(jiān)控?cái)?shù)據(jù)。

● 監(jiān)控鏈路:系統(tǒng)根據(jù)收集的數(shù)據(jù)自動(dòng)生成業(yè)務(wù)鏈路,每個(gè)“業(yè)務(wù)活動(dòng)”和“系統(tǒng)服務(wù)”節(jié)點(diǎn)都自動(dòng)生成流量、耗時(shí)、成功率的黃金指標(biāo),同時(shí)每個(gè)‘節(jié)點(diǎn)’都可以通過(guò)鉆取查看詳細(xì)的監(jiān)控?cái)?shù)據(jù),包括:不同機(jī)房、單元、分組的數(shù)據(jù)對(duì)比,每個(gè)業(yè)務(wù)身份的明細(xì)調(diào)用情況等。

● 異常檢測(cè):業(yè)務(wù)鏈路涉及節(jié)點(diǎn)眾多,必須要有完善的異常檢測(cè)機(jī)制來(lái)幫助用戶自動(dòng)發(fā)現(xiàn)問(wèn)題,我們提供了“智能基線預(yù)警”和“專家規(guī)則預(yù)警”相結(jié)合的異常檢測(cè)機(jī)制,無(wú)需用戶逐個(gè)配置報(bào)警規(guī)則,自動(dòng)發(fā)現(xiàn)異常節(jié)點(diǎn),實(shí)時(shí)將這些節(jié)點(diǎn)“標(biāo)紅”,異常的詳細(xì)信息也會(huì)同步顯示,方便用戶快速發(fā)現(xiàn)和定位問(wèn)題。

通過(guò)業(yè)務(wù)全鏈路監(jiān)控,可以做到對(duì)業(yè)務(wù)域的監(jiān)控標(biāo)準(zhǔn)化和全覆蓋,避免了自定義監(jiān)控覆蓋不全面、不標(biāo)準(zhǔn)、配置工作量大的問(wèn)題,使得老板、PD、運(yùn)營(yíng)、監(jiān)控值班等用戶都可以快速了解業(yè)務(wù)是否有問(wèn)題。

黃金指標(biāo)

引入Google的黃金指標(biāo)概念,改變了業(yè)務(wù)監(jiān)控完全依賴自定義的現(xiàn)狀,為業(yè)務(wù)監(jiān)控樹(shù)立了標(biāo)準(zhǔn)。

● 流量 :業(yè)務(wù)在單位時(shí)間內(nèi)的調(diào)用量,如:服務(wù)的QPS、每秒訂單筆數(shù)等。

● 耗時(shí) :業(yè)務(wù)的具體處理時(shí)長(zhǎng),需區(qū)分成功耗時(shí)和失敗耗時(shí)。

● 錯(cuò)誤 :調(diào)用出錯(cuò)數(shù)量、成功率、錯(cuò)誤碼。

● 飽和度 :應(yīng)用已使用資源的占比。

由于飽和度更多反應(yīng)的是應(yīng)用的層面情況,所以業(yè)務(wù)監(jiān)控使用流量、耗時(shí)、錯(cuò)誤這三個(gè)指標(biāo)就能很好的回答“業(yè)務(wù)”是否健康的問(wèn)題,在“業(yè)務(wù)全鏈路監(jiān)控”中每個(gè)業(yè)務(wù)活動(dòng)和系統(tǒng)服務(wù)都會(huì)標(biāo)配這三個(gè)監(jiān)控指標(biāo)。

除了黃金指標(biāo)以外,還可以根據(jù)各自業(yè)務(wù)的不同特點(diǎn),定義各種分維度的輔助指標(biāo),比如:按不同的業(yè)務(wù)身份,按商家、按門(mén)店分,不同的錯(cuò)誤碼等等,用于進(jìn)一步細(xì)化和定位

業(yè)務(wù)維度

傳統(tǒng)的“總量”指標(biāo)已經(jīng)不能滿足中臺(tái)、盒馬這樣的業(yè)務(wù)監(jiān)控需求了,通過(guò)可擴(kuò)展的業(yè)務(wù)維度實(shí)現(xiàn)對(duì)業(yè)務(wù)身份、商家、門(mén)店的精細(xì)化監(jiān)控。像“交易”這樣的中臺(tái)業(yè)務(wù)會(huì)被幾十個(gè)業(yè)務(wù)方調(diào)用,總量沒(méi)有異常并不代表具體的業(yè)務(wù)方?jīng)]有問(wèn)題,而是需要監(jiān)控每一個(gè)業(yè)務(wù)方各自的調(diào)用情況,只要有一個(gè)出現(xiàn)異常就要預(yù)警。

橫向業(yè)務(wù)維度:業(yè)務(wù)全鏈路監(jiān)控提供了“橫向業(yè)務(wù)維度”功能,能夠方便的配置“業(yè)務(wù)身份”、“商家”、“門(mén)店”等特定的業(yè)務(wù)維度,可以對(duì)一個(gè)業(yè)務(wù)域中所有的“業(yè)務(wù)活動(dòng)”和“系統(tǒng)服務(wù)”按一個(gè)維度過(guò)濾,比如可以對(duì)交易鏈路按“盒馬”這個(gè)業(yè)務(wù)身份過(guò)濾,從而在鏈路上看到的是盒馬的交易調(diào)用情況。

配置化埋點(diǎn)

監(jiān)控SDK使用AOP切面技術(shù)實(shí)現(xiàn)了配置化埋點(diǎn)能力,業(yè)務(wù)系統(tǒng)引入監(jiān)控SDK后,通過(guò)簡(jiǎn)單的一個(gè)配置文件即可完成監(jiān)控埋點(diǎn),自動(dòng)完成數(shù)據(jù)的攔截、計(jì)算、上報(bào),與業(yè)務(wù)代碼完全解耦。

鏈路自動(dòng)生成

自動(dòng)生成應(yīng)用核心鏈路、黃金指標(biāo)、業(yè)務(wù)維度大盤(pán),無(wú)需用戶配置,用戶還可以通過(guò)可視化編輯頁(yè)面對(duì)鏈路進(jìn)行調(diào)整。

智能基線預(yù)警

通過(guò)機(jī)器學(xué)習(xí)快速預(yù)測(cè)指標(biāo)的合理范圍,一旦超出邊界就會(huì)自動(dòng)觸發(fā)報(bào)警,無(wú)需配置閾值。

智能基線預(yù)警已經(jīng)在業(yè)務(wù)自定義監(jiān)控中得到了驗(yàn)證(已經(jīng)有超過(guò)1200指標(biāo)接入),準(zhǔn)確率和召回率相對(duì)于人工配置都有大幅提高,現(xiàn)在我們將該技術(shù)引入“業(yè)務(wù)全鏈路監(jiān)控”,實(shí)現(xiàn)對(duì)業(yè)務(wù)活動(dòng)的智能異常檢測(cè),全程無(wú)人參與。

實(shí)戰(zhàn)

實(shí)戰(zhàn)1-交易全局鏈路

交易域的全局業(yè)務(wù)鏈路,鏈路中列出交易的關(guān)鍵“業(yè)務(wù)活動(dòng)”,省略了每個(gè)業(yè)務(wù)活動(dòng)的“系統(tǒng)服務(wù)”等細(xì)節(jié),主要用于全鏈路壓測(cè),大促投屏等需要關(guān)注全局狀態(tài)的業(yè)務(wù)場(chǎng)景,已在6.18大促中得到實(shí)際應(yīng)用。

實(shí)戰(zhàn)2-交易核心鏈路

交易是整個(gè)電商的核心,我們通過(guò)“鏈路自動(dòng)生成”能力生成了核心業(yè)務(wù)鏈路,其中綠色節(jié)點(diǎn)為“業(yè)務(wù)活動(dòng)”,黃色節(jié)點(diǎn)為“業(yè)務(wù)活動(dòng)”依賴的“系統(tǒng)服務(wù)”。

通過(guò)業(yè)務(wù)鏈路可以很方便了解交易活動(dòng)的運(yùn)行狀況,一旦業(yè)務(wù)活動(dòng)出現(xiàn)問(wèn)題也可以更加直觀的發(fā)現(xiàn)與下游依賴的關(guān)系。

實(shí)戰(zhàn)3-POS服務(wù)端鏈路

POS是整個(gè)新零售場(chǎng)景線下支付場(chǎng)景的交易核心,下線支付場(chǎng)景對(duì)交易系統(tǒng)提出更加嚴(yán)格的可靠性要求,通過(guò)POS業(yè)務(wù)鏈路可以很好的監(jiān)控POS交易各環(huán)節(jié)的運(yùn)行情況,及時(shí)發(fā)現(xiàn)交易異常。

同時(shí)POS鏈路添加了“商家”、“門(mén)店”的業(yè)務(wù)維度,可以實(shí)時(shí)切換“盒馬”,“大潤(rùn)發(fā)”等不同商家的POS交易情況,實(shí)現(xiàn)針對(duì)每個(gè)商家精細(xì)化監(jiān)控。

本文作者:勁節(jié)

閱讀原文

本文來(lái)自云棲社區(qū)合作伙伴“阿里技術(shù)”,如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/19795.html

相關(guān)文章

  • 直擊六大會(huì)場(chǎng) | 洞察100+創(chuàng)新實(shí)踐,2018TOP100summit圓滿落幕!

    摘要:北京時(shí)間月日月日,由和中國(guó)國(guó)際人才交流基金會(huì)聯(lián)合主辦的第七屆全球軟件案例研究峰會(huì)簡(jiǎn)稱在北京國(guó)家會(huì)議中心圓滿落幕。本屆峰會(huì),來(lái)自阿里美團(tuán)百度平安銀行等企業(yè)的講師分別從企業(yè)轉(zhuǎn)型及研發(fā)效能方面分享敏捷和的實(shí)踐細(xì)節(jié)和操作經(jīng)驗(yàn)。 北京時(shí)間11月30日-12月3日,由msup和中國(guó)國(guó)際人才交流基金會(huì)聯(lián)合主辦的第七屆全球軟件案例研究峰會(huì)(簡(jiǎn)稱:TOP100summit)在北京國(guó)家會(huì)議中心圓滿落幕。T...

    YacaToy 評(píng)論0 收藏0
  • 螞蟻金服數(shù)據(jù)質(zhì)量治理架構(gòu)與實(shí)踐

    摘要:演講中,李俊華介紹了螞蟻金服數(shù)據(jù)架構(gòu)體系的免疫系統(tǒng)數(shù)據(jù)質(zhì)量治理體系,此外還著重介紹了數(shù)據(jù)質(zhì)量實(shí)施的相關(guān)內(nèi)容,以及螞蟻的數(shù)據(jù)質(zhì)量治理實(shí)踐與所面對(duì)的實(shí)際挑戰(zhàn)。 摘要:以數(shù)字金融新原力(The New Force of Digital Finance)為主題,螞蟻金服ATEC城市峰會(huì)于2019年1月4日上海如期舉辦。金融智能專場(chǎng)分論壇上,螞蟻金服數(shù)據(jù)平臺(tái)部高級(jí)數(shù)據(jù)技術(shù)專家李俊華做了主題為《螞...

    張憲坤 評(píng)論0 收藏0
  • 阿里數(shù)據(jù)庫(kù)十年變遷,那些你不知道的二三事

    摘要:今天,阿里數(shù)據(jù)庫(kù)事業(yè)部研究員張瑞,將為你講述雙數(shù)據(jù)庫(kù)技術(shù)不為人知的故事。這十年,阿里巴巴數(shù)據(jù)庫(kù)團(tuán)隊(duì)一直有一個(gè)使命推動(dòng)中國(guó)數(shù)據(jù)庫(kù)技術(shù)變革。 第十個(gè)雙11即將來(lái)臨之際,阿里技術(shù)推出《十年牧碼記》系列,邀請(qǐng)參與歷年雙11備戰(zhàn)的核心技術(shù)大牛,一起回顧阿里技術(shù)的變遷。 今天,阿里數(shù)據(jù)庫(kù)事業(yè)部研究員張瑞,將為你講述雙11數(shù)據(jù)庫(kù)技術(shù)不為人知的故事。在零點(diǎn)交易數(shù)字一次次提升的背后,既是數(shù)據(jù)庫(kù)技術(shù)的一次...

    greatwhole 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<