摘要:健全的告警分析體系真正認(rèn)識(shí)你的團(tuán)隊(duì)好的告警分析機(jī)制能夠幫助管理者分析團(tuán)隊(duì)整體的工作情況,根據(jù)作為評(píng)判標(biāo)準(zhǔn)。根據(jù)告警內(nèi)容分析也是很有必要的,能夠幫助團(tuán)隊(duì)管理者對(duì)資源進(jìn)行適當(dāng)?shù)恼{(diào)整,工作重心的調(diào)整。
「路漫漫其修遠(yuǎn)兮,吾將上下而求索」,「轉(zhuǎn)身」不見得華麗,但我必須「轉(zhuǎn)身」,不要安逸于現(xiàn)在的運(yùn)維狀況。
如果你運(yùn)維一線人員,是否會(huì)遇到以下情況:
公司所有的服務(wù)器告警消息會(huì)塞滿自己的整個(gè)郵箱,如果公司的運(yùn)維團(tuán)隊(duì)有幾個(gè)人到幾十人不等,當(dāng)你處理郵箱中的告警消息的時(shí)候,處理一半會(huì)發(fā)現(xiàn)問題已經(jīng)解決了,這個(gè)現(xiàn)象很常見,會(huì)導(dǎo)致工作效率的下降。改善的方法有很多,比如團(tuán)隊(duì)內(nèi)部多一些溝通,然而溝通的成本也是非常高的。解決問題應(yīng)該從源頭出發(fā),治標(biāo)不治本的方法還是應(yīng)該適當(dāng)采取。也許你在創(chuàng)業(yè)團(tuán)隊(duì)工作,團(tuán)隊(duì)中只有一個(gè)人,但是也希望你能讀完本篇文章,等團(tuán)隊(duì)壯大之后也會(huì)有幫助!
單一的告警通知方式會(huì)麻木運(yùn)維同學(xué)的工作思維,一天 24 小時(shí)接收的都是郵件或者短信的告警通知。我們更希望白天工作時(shí)間使用郵件、微信、APP 等輕量級(jí)的通知方式,晚上休息時(shí)間使用短信、電話等偏重的通知方式。這樣不僅白天能夠提高工作效率,而且能夠晚上好好休息,不用擔(dān)心告警疏漏。如果能有排班通知,那么就真正能「睡個(gè)好覺」了。
如果你是運(yùn)維 Team Leader,是否會(huì)遇到以下情況:
如果你是團(tuán)隊(duì)的管理人員,是否會(huì)遇到以下情況:
團(tuán)隊(duì)一直在解決故障,但對(duì)系統(tǒng)性能沒有整體的把握;你對(duì)團(tuán)隊(duì)、成員的工作量,工作效率沒有全面的了解。你肯定不希望這樣管理你的團(tuán)隊(duì),不希望團(tuán)隊(duì)重復(fù)解決某些事情,更不希望因?yàn)檫@些問題讓團(tuán)隊(duì)士氣低落,覺得工作沒有干勁。
團(tuán)隊(duì)一直在重復(fù)解決某一故障,但是卻因?yàn)槿鄙僖粋€(gè)好的分析工具,導(dǎo)致無用功重復(fù)執(zhí)行。比如經(jīng)常收到「127.0.0.1」服務(wù)器內(nèi)存使用率超過90%,嚴(yán)重級(jí)別高’的告警消息,通過對(duì)告警消息分析,此告警消息在本月出現(xiàn)頻率最高,此時(shí)是否能夠根據(jù)此告警對(duì)服務(wù)器做出一些硬件上的調(diào)整來減少告警的噪聲?
解決以上可能出現(xiàn)的問題,你需要:
合適通知體系
合理的通知方式
健全的告警分析機(jī)制
合適的通知體系 ------- 你的鍋你來背
根據(jù)不同的主機(jī)組把告警發(fā)給不同的一線成員,可有效解決告警分派的問題,并且能夠使團(tuán)隊(duì)責(zé)任劃分清晰。每個(gè)人負(fù)責(zé)一部分服務(wù)器,出現(xiàn)問題之后,告警消息只會(huì)通知自己,避免對(duì)其他同事的工作造成干擾。那如果這位同事遺漏了告警怎么辦?告警消息不被團(tuán)隊(duì)的其他人知曉,解決時(shí)間會(huì)存在嚴(yán)重的問題。這時(shí)需要一個(gè)有效的升級(jí)機(jī)制,告警在設(shè)置時(shí)間內(nèi)不確認(rèn)、不解決的時(shí)候,會(huì)升級(jí)到二線值班人員,二線一般都是領(lǐng)導(dǎo)級(jí)別的了,如果告警真的升級(jí)了,那你就…………。所以在第一時(shí)間接收到告警消息,第一時(shí)間解決掉是非常關(guān)鍵的,這時(shí)我們就需要有多種通知方式,合理的通知方式。
合理的通知方式 ------- 對(duì)的時(shí)間遇上對(duì)的人
不要在錯(cuò)的時(shí)間遇上對(duì)的人。 當(dāng)告警消息來了,選擇一個(gè)好的通知方式是至關(guān)重要的。比如白天工作時(shí)間,告警消息的推送只需要通過微信、郵件的方式。而晚上下班時(shí)間休息時(shí)間,告警消息推送可以選擇短信和電話兩種方式進(jìn)行通知,靈活的通知方式能夠達(dá)到事半功倍的效果。告警通知很及時(shí),那怎么衡量團(tuán)隊(duì)的工作效率、個(gè)人的工作效率呢?根據(jù)什么標(biāo)準(zhǔn)來衡量呢?這時(shí)有一個(gè)健全告警分析機(jī)制是很關(guān)鍵的。
健全的告警分析體系 ------- 真正認(rèn)識(shí)你的團(tuán)隊(duì)
好的告警分析機(jī)制能夠幫助管理者分析團(tuán)隊(duì)整體的工作情況,根據(jù) MTTR 作為評(píng)判標(biāo)準(zhǔn)。通過告警分析能夠分析出某一告警應(yīng)用某段時(shí)間內(nèi)處理情況。
根據(jù)告警內(nèi)容分析也是很有必要的,能夠幫助團(tuán)隊(duì)管理者對(duì)資源進(jìn)行適當(dāng)?shù)恼{(diào)整,工作重心的調(diào)整。
當(dāng)然對(duì)團(tuán)隊(duì)成員的工作進(jìn)行分析也是非常有必要的,OneAlert 對(duì)成員處理告警的分析即將上線。
健全的告警分析是一個(gè)運(yùn)維管理團(tuán)隊(duì)必須的,我們能夠在其中發(fā)現(xiàn)很多的團(tuán)隊(duì)問題,然后進(jìn)行適當(dāng)?shù)恼{(diào)整,把團(tuán)隊(duì)的整體 KPI 提高,士氣提高!希望本篇文章能夠?qū)δ阌杏谩?/p>
OneAlert 是北京藍(lán)海訊通科技有限公司旗下產(chǎn)品,中國首個(gè) SaaS 模式的云告警平臺(tái),集成國內(nèi)外主流監(jiān)控/支撐系統(tǒng),實(shí)現(xiàn)一個(gè)平臺(tái)上集中處理所有IT事件,提升IT可靠性。想了解更多信息,請(qǐng)?jiān)L問 OneAlert 官網(wǎng) 。
本文轉(zhuǎn)自 OneAPM 官方博客
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/7961.html
摘要:隨著人工智能時(shí)代的到來,攜程生產(chǎn)環(huán)境運(yùn)維進(jìn)入了新的運(yùn)維時(shí)代。本文選取了幾種典型的運(yùn)維場(chǎng)景對(duì)在攜程的踐行展開了介紹,首先讓我們從概念認(rèn)識(shí)下。針對(duì)應(yīng)用異常指標(biāo)檢測(cè)這種場(chǎng)景,抽取一定的樣本統(tǒng)計(jì),在基于專家經(jīng)驗(yàn)標(biāo)注下的準(zhǔn)確率可達(dá)到以上,召回率接近。 作者簡介徐新龍,攜程技術(shù)保障中心應(yīng)用管理團(tuán)隊(duì)高級(jí)工程師,負(fù)責(zé)多個(gè)AIOps項(xiàng)目的設(shè)計(jì)與研發(fā)。信號(hào)處理專業(yè)碩士畢業(yè),對(duì)人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)及數(shù)學(xué)有...
摘要:平均解決事件解決時(shí)間是衡量業(yè)務(wù)準(zhǔn)備的最佳標(biāo)準(zhǔn)。平均每小時(shí)折合損失。說明整個(gè)團(tuán)隊(duì)的響應(yīng)及時(shí)率是不錯(cuò)的。小結(jié)致力減少告警數(shù)量及時(shí)響應(yīng)如果不能及時(shí)響應(yīng),能夠升級(jí)處理,最終提升解決時(shí)間,個(gè)核心關(guān)鍵指標(biāo)是運(yùn)維支撐工作非常關(guān)鍵的指標(biāo)。 很難說,生活在這個(gè)數(shù)據(jù)大爆炸的時(shí)代對(duì)運(yùn)維同學(xué)是福還是禍。靈活的監(jiān)控系統(tǒng)、開放 API 和易用的數(shù)據(jù)可視化資源可以將任何想要的數(shù)據(jù)圖表化地顯示出來,但是,過多的數(shù)據(jù)容...
摘要:例如,把提示無效信用卡賬號(hào)的告警替換為一個(gè)可執(zhí)行的告警,比如指示用戶支付成功率急劇下降的告警可能系統(tǒng)會(huì)做出較大的變化,需要回滾操作。因此,不斷完善告警也是同樣非常重要的,所以要養(yǎng)成定期瀏覽和刪除不可執(zhí)行告警的習(xí)慣。 對(duì)于運(yùn)維團(tuán)隊(duì)而言,很多告警其實(shí)并不能幫助他們解決掉實(shí)際的問題,相反有時(shí)會(huì)加重多余的負(fù)擔(dān),這主要是因?yàn)榇蠖鄶?shù)的告警并不具備足夠的可執(zhí)行性: 它們指出的問題壓根兒不需要響應(yīng) ...
摘要:導(dǎo)讀為數(shù)人云系列活動(dòng)專題,本文是月日北京站線下活動(dòng)當(dāng)西方的遇上東方的互聯(lián)網(wǎng)中京東金融王超老師的分享。王超京東金融企業(yè)高級(jí)目前在京東金融平臺(tái)負(fù)責(zé)一個(gè)人左右的應(yīng)用運(yùn)維團(tuán)隊(duì)團(tuán)隊(duì),也曾負(fù)責(zé)人人網(wǎng)團(tuán)隊(duì)。 導(dǎo)讀:[GO SRE!] 為數(shù)人云SRE系列活動(dòng)專題,本文是3月4日北京站線下活動(dòng)當(dāng)西方的SRE遇上東方的互聯(lián)網(wǎng)中京東金融王超老師的分享。 他將從SRE,Devops, PE間的關(guān)系開始,介紹企...
摘要:導(dǎo)讀為數(shù)人云系列活動(dòng)專題,本文是月日北京站線下活動(dòng)當(dāng)西方的遇上東方的互聯(lián)網(wǎng)中京東金融王超老師的分享。王超京東金融企業(yè)高級(jí)目前在京東金融平臺(tái)負(fù)責(zé)一個(gè)人左右的應(yīng)用運(yùn)維團(tuán)隊(duì)團(tuán)隊(duì),也曾負(fù)責(zé)人人網(wǎng)團(tuán)隊(duì)。 導(dǎo)讀:[GO SRE!] 為數(shù)人云SRE系列活動(dòng)專題,本文是3月4日北京站線下活動(dòng)當(dāng)西方的SRE遇上東方的互聯(lián)網(wǎng)中京東金融王超老師的分享。 他將從SRE,Devops, PE間的關(guān)系開始,介紹企...
閱讀 2735·2023-04-25 21:26
閱讀 1523·2021-11-25 09:43
閱讀 1958·2019-08-30 15:52
閱讀 939·2019-08-30 14:05
閱讀 2626·2019-08-29 16:10
閱讀 422·2019-08-29 13:48
閱讀 1868·2019-08-29 12:47
閱讀 1309·2019-08-23 18:04