成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

解密百度智能運(yùn)維工程的架構(gòu)建設(shè)

HtmlCssJs / 3262人閱讀

摘要:作者介紹王藝,百度云智能運(yùn)維架構(gòu)研發(fā)負(fù)責(zé)人。年轉(zhuǎn)向運(yùn)維方向,作為智能運(yùn)維架構(gòu)方向的技術(shù)負(fù)責(zé)人,致力于為百度智能運(yùn)維平臺(tái)和產(chǎn)品提供高性能高可用可擴(kuò)展的系統(tǒng)架構(gòu)和基礎(chǔ)設(shè)施。持續(xù)的數(shù)據(jù)建設(shè),是智能運(yùn)維建設(shè)的關(guān)鍵。

作者介紹

王藝,百度云智能運(yùn)維架構(gòu)研發(fā)負(fù)責(zé)人。2010年加入百度,先后負(fù)責(zé)百度鏈接庫(kù)、百度志愿計(jì)算、百度統(tǒng)一資源管理的研發(fā),經(jīng)歷過(guò)千億級(jí)網(wǎng)頁(yè)鏈接的洗禮,也調(diào)度過(guò)數(shù)十萬(wàn)量級(jí)的服務(wù)器,熱衷于直面架構(gòu)技術(shù)挑戰(zhàn),在分布式計(jì)算、分布式資源和任務(wù)調(diào)度方面經(jīng)驗(yàn)豐富。2015年轉(zhuǎn)向運(yùn)維方向,作為智能運(yùn)維架構(gòu)方向的技術(shù)負(fù)責(zé)人,致力于為百度智能運(yùn)維平臺(tái)和產(chǎn)品提供高性能、高可用、可擴(kuò)展的系統(tǒng)架構(gòu)和基礎(chǔ)設(shè)施。

背景:為什么要做智能運(yùn)維

百度云智能運(yùn)維團(tuán)隊(duì)在運(yùn)維工具和平臺(tái)研發(fā)方向歷史悠久,支撐了全百度數(shù)十萬(wàn)規(guī)模服務(wù)器上的運(yùn)維服務(wù),所提供的服務(wù)包括服務(wù)管理、資源定位、監(jiān)控、部署、分布式任務(wù)調(diào)度等等。最近幾年,團(tuán)隊(duì)著力于發(fā)展智能化運(yùn)維能力以及AIOps產(chǎn)品化建設(shè)。

眾所周知,百度除了搜索業(yè)務(wù)之外,還有很多其他的業(yè)務(wù)線,有像地圖、百科、知道、網(wǎng)盤(pán)這樣的老牌業(yè)務(wù),也有諸如像教育、醫(yī)療這樣的新興業(yè)務(wù),每個(gè)業(yè)務(wù)在規(guī)模上、服務(wù)架構(gòu)上都有很大差異。業(yè)務(wù)本身對(duì)穩(wěn)定性的要求很高,需要保持99.995%的高可用,同時(shí)在業(yè)務(wù)上云的背景下,虛擬化、混合云等都給我們帶來(lái)了新的挑戰(zhàn)。

圖1:百度運(yùn)維發(fā)展歷程

百度運(yùn)維經(jīng)歷了從腳本&工具、基礎(chǔ)運(yùn)維平臺(tái)、開(kāi)放可定制運(yùn)維平臺(tái)到我們現(xiàn)在的智能運(yùn)維平臺(tái),這樣四個(gè)階段的轉(zhuǎn)變。過(guò)去運(yùn)維的核心目標(biāo)是提升效果,比如持續(xù)交付的速度、服務(wù)穩(wěn)定性、運(yùn)營(yíng)成本等。經(jīng)過(guò)這么多年的建設(shè),整個(gè)運(yùn)維行業(yè)已經(jīng)非常成熟,而我們所支撐業(yè)務(wù)規(guī)模仍在不斷增長(zhǎng),越來(lái)越多的運(yùn)維場(chǎng)景和問(wèn)題無(wú)法用傳統(tǒng)方法來(lái)解決,而運(yùn)維效率也難以繼續(xù)支撐業(yè)務(wù)規(guī)模的快速擴(kuò)張,所以我們更加關(guān)注怎么樣解放運(yùn)維自身的效率,以及解決傳統(tǒng)運(yùn)維方法(人工、自動(dòng)化)所解決不了的問(wèn)題。

這就好比從馬車(chē)到汽車(chē)是為了提升運(yùn)輸效率,而到汽車(chē)已經(jīng)接近飽和的時(shí)候,我們又希望用自動(dòng)駕駛把駕駛員從開(kāi)車(chē)這項(xiàng)體力勞動(dòng)中解放出來(lái),不僅可以增加運(yùn)行效率,同時(shí)也可以減少交通事故率,這也是我們對(duì)智能運(yùn)維的訴求。

發(fā)展:AIOps,從理念到落地

2016年Gartner報(bào)告中提出了AIOps概念,也就是Algorithmic IT Operations;基于算法的IT運(yùn)維,主要指用大數(shù)據(jù)、機(jī)器學(xué)習(xí)驅(qū)動(dòng)自動(dòng)化、服務(wù)臺(tái)、監(jiān)控這些場(chǎng)景下的能力提升。

我們從2014年開(kāi)始做智能運(yùn)維方面的探索,最開(kāi)始也是集中在監(jiān)控指標(biāo)分析、報(bào)警分析、故障根因分析、性能和成本分析這些方面,到2016年我們已經(jīng)完成將AI應(yīng)用于完整的運(yùn)維平臺(tái)研發(fā)的論證。在我們語(yǔ)義下的AIOps,目標(biāo)是將人的知識(shí)和運(yùn)維經(jīng)驗(yàn)與大數(shù)據(jù)、機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,開(kāi)發(fā)成一系列的智能策略,融入到運(yùn)維系統(tǒng)中。用這樣的智能運(yùn)維系統(tǒng)去完成運(yùn)維任務(wù),是我們所認(rèn)為的AIOps,也就是Artificial Intelligence IT Operations。有意思的是,2017年之后的Gartner報(bào)告也將AIOps的概念改成了Artificial Intelligence IT Operations。

圖2:AIOps整體架構(gòu)

我們認(rèn)為AIOps中有三部分不可或缺,一個(gè)是運(yùn)維開(kāi)發(fā)框架,這個(gè)是我們后續(xù)智能運(yùn)維研發(fā)的骨架;第二個(gè)是運(yùn)維知識(shí)庫(kù),這是讓骨架能與我們真實(shí)線上環(huán)境關(guān)聯(lián)起來(lái)的關(guān)鍵因素,起到了血肉的作用,讓骨架能動(dòng)起來(lái);而最后一個(gè)則是運(yùn)維策略庫(kù),這是運(yùn)維的大腦,控制著運(yùn)維平臺(tái)的行為。

使用運(yùn)維開(kāi)發(fā)框架實(shí)現(xiàn)的運(yùn)維程序,我們稱其為運(yùn)維機(jī)器人。運(yùn)維機(jī)器人可以在多種不同的運(yùn)維場(chǎng)景下提供多樣的運(yùn)維能力,服務(wù)不同類型的業(yè)務(wù)和用戶。

框架:新的運(yùn)維開(kāi)發(fā)模式

圖3:運(yùn)維開(kāi)發(fā)框架

運(yùn)維開(kāi)發(fā)框架基于這樣一個(gè)抽象,就是如果我們把線上環(huán)境看做一個(gè)黑盒服務(wù),那么我們對(duì)它的操作無(wú)非讀寫(xiě)兩類。所謂的寫(xiě)也就是操作控制流,是那種要對(duì)線上狀態(tài)做一些改變的操作,我們常說(shuō)的部署、執(zhí)行命令,都屬于這一類;另一類是讀,指的是數(shù)據(jù)流,也就是要從線上獲取狀態(tài)數(shù)據(jù),并進(jìn)行一些聚合統(tǒng)計(jì)之類的處理,我們常說(shuō)的指標(biāo)匯聚、異常檢測(cè)、報(bào)警都在這個(gè)里面。通過(guò)運(yùn)維知識(shí)庫(kù),可以在這兩種操作的基礎(chǔ)上,封裝出多種不同的運(yùn)維機(jī)器人,對(duì)業(yè)務(wù)提供高效率、高質(zhì)量以及高可用方面的能力。

根據(jù)操作流和數(shù)據(jù)流的不同,我們把框架分成了兩部分,最基礎(chǔ)的是運(yùn)維執(zhí)行框架,在這之上,加上分布式計(jì)算組件的支持,我們還建設(shè)了用于運(yùn)維大數(shù)據(jù)計(jì)算的計(jì)算框架。

1、工程化

運(yùn)維開(kāi)發(fā)框架給開(kāi)發(fā)者提供一系列的開(kāi)發(fā)套件,除了包含了一系列的基礎(chǔ)能力,還包含了一個(gè)標(biāo)準(zhǔn)的運(yùn)維工程研發(fā)流程。

在過(guò)去,運(yùn)維研發(fā)采用簡(jiǎn)單的開(kāi)發(fā)-使用方式,缺少必要的測(cè)試維護(hù)。而現(xiàn)在,在代碼開(kāi)發(fā)階段,可以通過(guò)執(zhí)行框架,用統(tǒng)一的操作接口庫(kù)提升研發(fā)效率。在測(cè)試階段,開(kāi)發(fā)套件提供了單測(cè)和仿真系統(tǒng),簡(jiǎn)化測(cè)試環(huán)境搭建。在上線后的階段,通過(guò)狀態(tài)服務(wù)和托管系統(tǒng),可滿足在各災(zāi)難場(chǎng)景下的運(yùn)維機(jī)器人的自維護(hù)。

2、組件化

運(yùn)維開(kāi)發(fā)框架通過(guò)三種不同的組件功能組合成運(yùn)維機(jī)器人。分別是感知器、決策器和執(zhí)行器。這三種組件針對(duì)各自使用場(chǎng)景,提供了多種架構(gòu)能力。

圖4:運(yùn)維開(kāi)發(fā)框架的組件

感知器是運(yùn)維機(jī)器人的眼睛和耳朵,就像人有兩個(gè)眼睛和兩個(gè)耳朵一樣。運(yùn)維機(jī)器人也可以掛載多個(gè)感知器來(lái)獲取不同事件源的消息,比如監(jiān)控的指標(biāo)數(shù)據(jù)或者是報(bào)警事件,變更事件這些,甚至可以是一個(gè)定時(shí)器。這些消息可以以推拉兩種方式被感知器獲取到。這些消息也可以做一定的聚合,達(dá)到閾值再觸發(fā)后續(xù)處理。

決策器是運(yùn)維機(jī)器人的大腦,所以為了保證決策的,機(jī)器人有且只能有一個(gè)決策器。決策器也是使用者主要要擴(kuò)展實(shí)現(xiàn)的部分。除了常見(jiàn)的邏輯判斷規(guī)則之外,未來(lái)我們還會(huì)加入決策樹(shù)等模型,讓運(yùn)維機(jī)器人自主控制決策路徑。

執(zhí)行器是運(yùn)維機(jī)器人的手腳,所以同樣的,執(zhí)行器可以并行的執(zhí)行多個(gè)不同的任務(wù)。執(zhí)行器將運(yùn)維長(zhǎng)流程抽象成狀態(tài)機(jī)和工作流兩種模式。這樣框架就可以記住當(dāng)前的執(zhí)行狀態(tài),如果運(yùn)維機(jī)器人發(fā)生了故障遷移,還可以按照已經(jīng)執(zhí)行的狀態(tài)讓長(zhǎng)流程斷點(diǎn)續(xù)起。

知識(shí)庫(kù):運(yùn)維的知識(shí)圖譜

知識(shí)庫(kù)是智能運(yùn)維架構(gòu)中非常重要的一部分:所有要處理的數(shù)據(jù)都來(lái)自知識(shí)庫(kù),以及所有處理后的數(shù)據(jù)也都會(huì)再進(jìn)入到知識(shí)庫(kù)中。知識(shí)庫(kù)由三部分組成,分別是元數(shù)據(jù)、狀態(tài)數(shù)據(jù)和事件數(shù)據(jù)。持續(xù)的數(shù)據(jù)建設(shè),是智能運(yùn)維建設(shè)的關(guān)鍵。

圖5:運(yùn)維知識(shí)庫(kù)概覽

考慮到未來(lái)需要對(duì)接不同的內(nèi)部云平臺(tái)和公有云平臺(tái),所以我們的運(yùn)維數(shù)據(jù)也需要從底層的多種不同的運(yùn)維平臺(tái)中抽取,清洗和做數(shù)據(jù)的整合。并以盡可能高的時(shí)效性提供給平臺(tái)用戶使用。因此我們知識(shí)庫(kù)建設(shè)遵照這四個(gè)能力指標(biāo)進(jìn)行,分別是全、準(zhǔn)、新、穩(wěn)。

由于知識(shí)庫(kù)涉及的存儲(chǔ)的內(nèi)容篇幅太大,并且是相對(duì)獨(dú)立的一塊工作,所以這里就不再展開(kāi)了。

實(shí)踐:運(yùn)維機(jī)器人

單機(jī)房故障自愈是2017年我們完成的重點(diǎn)項(xiàng)目,目標(biāo)是將單機(jī)房范圍的故障自愈水平普遍提升到L4級(jí)(整個(gè)處理過(guò)程,包括決策過(guò)程基本無(wú)人介入)。當(dāng)然,另一部分原因是過(guò)去一兩年發(fā)生的幾次業(yè)界重大線上事故,我們希望可以防微杜漸,進(jìn)一步提升MTTR水平。

相比較原有的單機(jī)房故障處理方式,在感知、決策、執(zhí)行三個(gè)方面,L4級(jí)的單機(jī)房故障自愈系統(tǒng)效果顯著:

感知方面,智能異常檢測(cè)算法替代過(guò)去大量誤報(bào)漏報(bào)的閾值檢測(cè)方法;

決策方面,具備全局信息、自動(dòng)決策的算法組件替代了過(guò)去“老中醫(yī)會(huì)診”的人工決策模式;

執(zhí)行方面,狀態(tài)機(jī)等執(zhí)行長(zhǎng)流程組件的加入,讓執(zhí)行過(guò)程可定位、可復(fù)用。

目前L4級(jí)的單機(jī)房故障自愈,已經(jīng)覆蓋百度大多數(shù)核心業(yè)務(wù)線,止損效率可做到分鐘級(jí),最快秒級(jí)止損,較人工止損效率提升60%-99%。

圖6:?jiǎn)螜C(jī)房自愈效果

圖6所示,在過(guò)去的一次case中,北京某處機(jī)房掉電,受影響業(yè)務(wù)線2min內(nèi)即完成止損,對(duì)比之前的故障處理方式,止損效率提升非常顯著。

總結(jié)

隨著AIOps逐漸走向成熟和產(chǎn)品化,必將有越來(lái)越多的運(yùn)維場(chǎng)景被AIOps所變革,而我們百度云智能運(yùn)維團(tuán)隊(duì),也希望秉承著這個(gè)方向,為行業(yè)貢獻(xiàn)更多的創(chuàng)新理念、技術(shù)和產(chǎn)品,歡迎大家一起加入探討。

最后,用一句話來(lái)總結(jié)下工程架構(gòu)對(duì)于智能運(yùn)維的意義:

框架在手,AI我有:智能時(shí)代,框架會(huì)越來(lái)越重要,從機(jī)器學(xué)習(xí)框架TensorFlow到自動(dòng)駕駛框架Apollo,概莫能外。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/3953.html

相關(guān)文章

  • 虎牙直播運(yùn)維負(fù)責(zé)人張觀石 | 解密SRE六種能力及虎牙運(yùn)維實(shí)踐

    摘要:本文是根據(jù)虎牙直播運(yùn)維負(fù)責(zé)人張觀石月日在攜手魅族百度云主辦的第十三期魅族開(kāi)放日虎牙直播平臺(tái)實(shí)踐演講中的分享內(nèi)容整理而成。英雄聯(lián)盟是全球最大的電子競(jìng)技賽事,目前正在如火如荼進(jìn)行,從今天開(kāi)始進(jìn)入了總決賽的淘汰賽階段了。 showImg(https://segmentfault.com/img/bVblQM9?w=1080&h=720); 本文是根據(jù)虎牙直播運(yùn)維負(fù)責(zé)人張觀石10月20日在ms...

    ixlei 評(píng)論0 收藏0
  • 直擊六大會(huì)場(chǎng) | 洞察100+創(chuàng)新實(shí)踐,2018TOP100summit圓滿落幕!

    摘要:北京時(shí)間月日月日,由和中國(guó)國(guó)際人才交流基金會(huì)聯(lián)合主辦的第七屆全球軟件案例研究峰會(huì)簡(jiǎn)稱在北京國(guó)家會(huì)議中心圓滿落幕。本屆峰會(huì),來(lái)自阿里美團(tuán)百度平安銀行等企業(yè)的講師分別從企業(yè)轉(zhuǎn)型及研發(fā)效能方面分享敏捷和的實(shí)踐細(xì)節(jié)和操作經(jīng)驗(yàn)。 北京時(shí)間11月30日-12月3日,由msup和中國(guó)國(guó)際人才交流基金會(huì)聯(lián)合主辦的第七屆全球軟件案例研究峰會(huì)(簡(jiǎn)稱:TOP100summit)在北京國(guó)家會(huì)議中心圓滿落幕。T...

    YacaToy 評(píng)論0 收藏0
  • 虎牙直播運(yùn)維負(fù)責(zé)人張觀石 | 解密SRE六種能力及虎牙運(yùn)維實(shí)踐

    摘要:虎牙直播運(yùn)維負(fù)責(zé)人張觀石張觀石,擁有余年網(wǎng)站開(kāi)發(fā)架構(gòu)運(yùn)維經(jīng)驗(yàn)?zāi)壳瓣P(guān)注互聯(lián)網(wǎng)服務(wù)可靠性系統(tǒng)工程運(yùn)維平臺(tái)的規(guī)劃建設(shè)網(wǎng)站高可用架構(gòu)等方面在音視頻傳輸質(zhì)量評(píng)估微服務(wù)運(yùn)維方面積累了豐富的經(jīng)驗(yàn)。 showImg(https://segmentfault.com/img/bVbjqGq); 虎牙直播運(yùn)維負(fù)責(zé)人張觀石 張觀石,擁有10余年網(wǎng)站開(kāi)發(fā)、架構(gòu)、運(yùn)維經(jīng)驗(yàn);目前關(guān)注互聯(lián)網(wǎng)服務(wù)可靠性系統(tǒng)工程、運(yùn)維...

    Jonathan Shieber 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<