成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

對(duì)抗告警疲勞的8種方法

Julylovin / 3448人閱讀

摘要:編者按本文作者為,主要介紹告警疲勞的產(chǎn)生原因與對(duì)抗告警疲勞的種方法。告警疲勞不僅會(huì)影響團(tuán)隊(duì)成員的工作情緒,而且會(huì)阻礙軟件交付鏈的成長(zhǎng)。利用工具事件管理工具對(duì)抵抗告警疲勞大有幫助。

【編者按】本文作者為 Chris Riley,主要介紹告警疲勞的產(chǎn)生原因與對(duì)抗告警疲勞的8種方法。文章系國(guó)內(nèi) ITOM 管理平臺(tái) OneAPM 編譯呈現(xiàn)。

各司其職、孤軍作戰(zhàn)非常不利于團(tuán)隊(duì)溝通,一旦發(fā)生重大事件,各個(gè)部門就很難掌握事件始末,這不僅降低了整個(gè)開(kāi)發(fā)團(tuán)隊(duì)的溝通質(zhì)量,而且對(duì)運(yùn)維工作也造成了極大困擾,即告警疲勞。告警疲勞不僅會(huì)影響團(tuán)隊(duì)成員的工作情緒,而且會(huì)阻礙軟件交付鏈的成長(zhǎng)。

DevOps 的最大優(yōu)勢(shì)是清除溝通障礙并簡(jiǎn)化運(yùn)維操作。通常,DevOps 團(tuán)隊(duì)有兩種類別:一種是面向所有應(yīng)用程序的集中式團(tuán)隊(duì),另一種是面向每個(gè)應(yīng)用程序或核心服務(wù)的去中心化團(tuán)隊(duì)。前者規(guī)模較大,但是比傳統(tǒng)的NOC環(huán)境要小,而后者則是很小的團(tuán)隊(duì)。

DevOps 團(tuán)隊(duì)除了負(fù)責(zé)維護(hù)基礎(chǔ)設(shè)施以外,有時(shí)還要管理發(fā)布過(guò)程,以及維持生產(chǎn)的正常運(yùn)行。而最后這項(xiàng)工作是最傷腦經(jīng)也最耗時(shí)的,一旦處理有誤就會(huì)影響到整個(gè)環(huán)境。雖然沒(méi)有人愿意值班待命,但我們還是得這樣做,因?yàn)槠骄迯?fù)時(shí)間(MTTR)越短,問(wèn)題響應(yīng)越迅速,接下來(lái)的幾天甚至幾周里,大家的日子都會(huì)好過(guò)些——最重要的是它能維持業(yè)務(wù)的正常運(yùn)轉(zhuǎn)。

但是,一旦值班開(kāi)始影響到團(tuán)隊(duì)情緒并占據(jù)運(yùn)維團(tuán)隊(duì)大量的時(shí)間,就可能招致巨大的風(fēng)險(xiǎn)——集中式團(tuán)隊(duì)和去中心化團(tuán)隊(duì)很容易產(chǎn)生告警疲勞。集中式團(tuán)隊(duì)的疲勞不僅是要解決所有應(yīng)用上的大量告警,而且還很難找到合適的人來(lái)解決問(wèn)題,因?yàn)橹蛋嗟娜撕苡锌赡軟](méi)法解決告警的問(wèn)題。至于去中心化團(tuán)隊(duì)的告警疲勞,主要是由于團(tuán)隊(duì)太小而告警太多所致。

告警疲勞對(duì)DevOps和IT運(yùn)維團(tuán)隊(duì)的影響主要體現(xiàn)在四個(gè)方面:

士氣低落:如果大部分時(shí)間都用于解決問(wèn)題,你不僅要沒(méi)日沒(méi)夜地處理事件,而且所做的事情越來(lái)越無(wú)聊,感覺(jué)每天就是滅不完的火,這樣很容易磨滅團(tuán)隊(duì)的溝通熱情,導(dǎo)致工作效率降低。

單點(diǎn)故障:在集中式團(tuán)隊(duì)中,MTTR 主要取決于運(yùn)維人員通過(guò)一組非常有限的值班操作來(lái)響應(yīng)問(wèn)題并確定根本原因的速度。在去中心化團(tuán)隊(duì)中,確定根本問(wèn)題的時(shí)間會(huì)有所增加,但是由于掌握的信息不足,運(yùn)維人員無(wú)法準(zhǔn)確地篩選問(wèn)題并快速解決。再有就是,由于呼叫列表太短,很有可能根本無(wú)法解決問(wèn)題。因此,一旦有問(wèn)題產(chǎn)生,這些因素都會(huì)造成運(yùn)維瓶頸和單點(diǎn)故障。

機(jī)會(huì)成本:這是告警疲勞所造成的影響中最容易被忽略的一點(diǎn)——整個(gè)團(tuán)隊(duì)和交付鏈所耗費(fèi)的成本增加。如果你的 DevOps 團(tuán)隊(duì)在告警過(guò)程中不堪重負(fù),他們就無(wú)法完善和創(chuàng)新交付鏈,因?yàn)樗麄冎粫?huì)機(jī)械地響應(yīng),沒(méi)有精力去開(kāi)發(fā)更好的版本、完善基礎(chǔ)設(shè)施的自動(dòng)化過(guò)程或主動(dòng)預(yù)防未來(lái)的問(wèn)題。這不僅阻礙了團(tuán)隊(duì)進(jìn)步,而且增加了技術(shù)成本,因?yàn)榻?jīng)常重復(fù)的問(wèn)題并沒(méi)有真正得到解決。

發(fā)布速度延遲:解決問(wèn)題所耗費(fèi)的時(shí)間越長(zhǎng),發(fā)布速度就越慢。仔細(xì)想想你們團(tuán)隊(duì)有多少次推遲了發(fā)布時(shí)間?

應(yīng)對(duì)告警疲勞最簡(jiǎn)單的方式是擴(kuò)大運(yùn)維團(tuán)隊(duì),但是這未必是最好的選擇,因?yàn)橛行┣闆r下我們也確實(shí)需要小一點(diǎn)的DevOps團(tuán)隊(duì)。

所以,建議大家在與告警疲勞作斗爭(zhēng)時(shí)試試以下8個(gè)方法:

創(chuàng)建更好的升級(jí)策略:計(jì)劃!不要只是給團(tuán)隊(duì)創(chuàng)建一個(gè)呼叫列表,你要考慮告警疲勞可能會(huì)對(duì)團(tuán)隊(duì)資源和士氣造成哪些影響,然后再制定相應(yīng)的計(jì)劃和策略,也許很小的變動(dòng)就能帶來(lái)極大的幫助,比如打破循環(huán)。

安排 QA 和開(kāi)發(fā)人員值班:這需要整個(gè)團(tuán)隊(duì)全員上陣,雖然做起來(lái)很困難,但是如果你把 QA 團(tuán)隊(duì)和開(kāi)發(fā)人員安排到值班工作中,你獲得的信息就更完善,解決問(wèn)題的速度也更快。他們即便是與運(yùn)維團(tuán)隊(duì)的成員并行工作,其效果也可見(jiàn)一斑,因?yàn)楦鼜V泛的支持不僅可以提高生產(chǎn)問(wèn)題的可見(jiàn)性,幫助開(kāi)發(fā)人員解決應(yīng)用程序的相關(guān)問(wèn)題,而且還可以加強(qiáng)了解,防患于未然。

進(jìn)行詳細(xì)的事件分析:通過(guò)事件分析評(píng)估告警設(shè)置的效果可以讓你隨時(shí)改進(jìn)設(shè)置并發(fā)現(xiàn)當(dāng)前存在的瓶頸。同時(shí),數(shù)據(jù)還可以指出重復(fù)性問(wèn)題??傊?,要充分發(fā)揮數(shù)據(jù)的指導(dǎo)性作用。

安排時(shí)間以終結(jié)重復(fù)性問(wèn)題:分配一定的時(shí)間確定之前快速修復(fù)的問(wèn)題并徹底解決,以確保將來(lái)不再重復(fù)。但是要將問(wèn)題及所有后續(xù)問(wèn)題完全消滅,這對(duì)運(yùn)維團(tuán)隊(duì)而言是個(gè)艱巨的任務(wù)。

標(biāo)準(zhǔn)化通知規(guī)則:不要讓值班成員任意設(shè)置自己的規(guī)則,一定要將規(guī)則標(biāo)準(zhǔn)化或模板化,以保證一致性和問(wèn)責(zé)制。

允許平行告警:除了垂直呼叫以外,還要有平行告警,這樣多個(gè)團(tuán)隊(duì)成員就可以共同攻克問(wèn)題以縮短MTTR。

利用工具:事件管理工具對(duì)抵抗告警疲勞大有幫助。一個(gè)好的事件管理解決方案,例如 PagerDuty、OneAlert ,不僅可以幫助你自動(dòng)處理告警并過(guò)濾告警噪音,以防止無(wú)關(guān)緊要的告警造成過(guò)重的負(fù)擔(dān);而且還能協(xié)助你找準(zhǔn)告警以采取更加有效的值班操作。此后,要是在晚上出現(xiàn)告警,你就知道真的出了問(wèn)題。

優(yōu)化代碼:提高代碼質(zhì)量可以減少宕機(jī)。這其實(shí)很簡(jiǎn)單,但又總是被忽略。所以,一定要花時(shí)間優(yōu)化代碼、提高測(cè)試覆蓋率、完善系統(tǒng)測(cè)試和測(cè)試自動(dòng)化,并將收獲和成果向所有成員展示。

以上這些方法都可以優(yōu)化運(yùn)維性能,并且受益面廣??偠灾?,告警疲勞是確實(shí)存在的問(wèn)題,它不僅會(huì)影響 DevOps 和 ITOps 團(tuán)隊(duì)的幸福感,而且會(huì)影響整個(gè)開(kāi)發(fā)團(tuán)隊(duì)創(chuàng)新和完善發(fā)布代碼的能力。

本文系 OneAPM 工程師編譯整理。OneAlert 是 OneAPM 旗下產(chǎn)品,是國(guó)內(nèi)第一個(gè) SaaS 模式的云告警平臺(tái),集成國(guó)內(nèi)外主流監(jiān)控/支撐系統(tǒng),實(shí)現(xiàn)一個(gè)平臺(tái)上集中處理所有 IT 事件,提升 IT 可靠性。想閱讀更多技術(shù)文章,請(qǐng)?jiān)L問(wèn) OneAPM 官方技術(shù)博客。

本文轉(zhuǎn)自 OneAPM 官方博客

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/7975.html

相關(guān)文章

  • 對(duì)抗不可執(zhí)行告警措施

    摘要:例如,把提示無(wú)效信用卡賬號(hào)的告警替換為一個(gè)可執(zhí)行的告警,比如指示用戶支付成功率急劇下降的告警可能系統(tǒng)會(huì)做出較大的變化,需要回滾操作。因此,不斷完善告警也是同樣非常重要的,所以要養(yǎng)成定期瀏覽和刪除不可執(zhí)行告警的習(xí)慣。 對(duì)于運(yùn)維團(tuán)隊(duì)而言,很多告警其實(shí)并不能幫助他們解決掉實(shí)際的問(wèn)題,相反有時(shí)會(huì)加重多余的負(fù)擔(dān),這主要是因?yàn)榇蠖鄶?shù)的告警并不具備足夠的可執(zhí)行性: 它們指出的問(wèn)題壓根兒不需要響應(yīng) ...

    zacklee 評(píng)論0 收藏0
  • 40張圖看懂撲克AI對(duì)抗人類30年歷史,解密冷撲大師前世今生

    摘要:月,卡耐基梅隆大學(xué)的程序在一對(duì)一不限注的撲克比賽中,擊敗了一組的德州撲克職業(yè)選手。概述擊敗人類冠軍的三件事的深藍(lán),由卡內(nèi)基梅隆大學(xué)開(kāi)飯,在年的復(fù)賽中擊敗國(guó)際象棋世界冠軍卡斯帕羅夫。年,奧克蘭大學(xué)發(fā)布。 2017年是AI在撲克上取得突破的一年,在AI的發(fā)展歷史上,具有里程碑的意義。1月,卡耐基梅隆大學(xué)的 AI 程序在一對(duì)一不限注的撲克比賽中,擊敗了一組的德州撲克職業(yè)選手。出乎所有人的意外,這一...

    YuboonaZhang 評(píng)論0 收藏0
  • 令人沮喪告警垃圾及處理辦法!

    摘要:在那些緊迫的告警中,找出需要立即處理的告警更則難上加難。是應(yīng)用性能管理領(lǐng)軍企業(yè)公司旗下產(chǎn)品,也是國(guó)內(nèi)首個(gè)模式的云告警平臺(tái),集成國(guó)內(nèi)外主流監(jiān)控支撐系統(tǒng),實(shí)現(xiàn)一個(gè)平臺(tái)上集中處理所有事件,提升可靠性。 在 OneAlert,我們經(jīng)常與運(yùn)維團(tuán)隊(duì)聊天。因?yàn)楫a(chǎn)品開(kāi)發(fā)過(guò)程中,這樣的對(duì)話有助于了解客戶的真正痛點(diǎn)?!父婢埂O(jiān)控系統(tǒng)中時(shí)常涌現(xiàn)的告警洪流,是運(yùn)維團(tuán)隊(duì)經(jīng)常提到的一大痛處。 至于其原因,...

    mushang 評(píng)論0 收藏0
  • 如何讓運(yùn)維指標(biāo)變得更有價(jià)值?

    摘要:為了掌握你的告警事件響應(yīng)時(shí)間,在你已經(jīng)開(kāi)始處理告警時(shí),強(qiáng)烈建議及時(shí)響應(yīng)認(rèn)領(lǐng),例如通過(guò)移動(dòng)端微信頁(yè)面移動(dòng)等方式及時(shí)認(rèn)領(lǐng)。這一點(diǎn)國(guó)外做的很棒,在短信電話移動(dòng)都可以很容易確認(rèn)認(rèn)領(lǐng)在微信端可以認(rèn)領(lǐng)和關(guān)閉。 這是《運(yùn)維不容錯(cuò)過(guò)的4個(gè)關(guān)鍵指標(biāo)》的姐妹篇,上篇文章介紹了優(yōu)秀運(yùn)維團(tuán)隊(duì)需要關(guān)注的4個(gè)關(guān)鍵指標(biāo),我們分享了平均恢復(fù)時(shí)間 MTTR、平均響應(yīng)時(shí)間 MTTA 等概念。這篇是介紹一些實(shí)踐方法,更好的...

    suxier 評(píng)論0 收藏0
  • 運(yùn)維不容錯(cuò)過(guò)4個(gè)關(guān)鍵指標(biāo)!

    摘要:平均解決事件解決時(shí)間是衡量業(yè)務(wù)準(zhǔn)備的最佳標(biāo)準(zhǔn)。平均每小時(shí)折合損失。說(shuō)明整個(gè)團(tuán)隊(duì)的響應(yīng)及時(shí)率是不錯(cuò)的。小結(jié)致力減少告警數(shù)量及時(shí)響應(yīng)如果不能及時(shí)響應(yīng),能夠升級(jí)處理,最終提升解決時(shí)間,個(gè)核心關(guān)鍵指標(biāo)是運(yùn)維支撐工作非常關(guān)鍵的指標(biāo)。 很難說(shuō),生活在這個(gè)數(shù)據(jù)大爆炸的時(shí)代對(duì)運(yùn)維同學(xué)是福還是禍。靈活的監(jiān)控系統(tǒng)、開(kāi)放 API 和易用的數(shù)據(jù)可視化資源可以將任何想要的數(shù)據(jù)圖表化地顯示出來(lái),但是,過(guò)多的數(shù)據(jù)容...

    xiaodao 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<