摘要:解決突發(fā)事故意味著什么通常認(rèn)為解決突發(fā)事故是積極舉措。以平均恢復(fù)前時(shí)間為評(píng)估手段可能會(huì)掩飾警示,將紅燈變?yōu)榘踩木G燈。迅速解決突發(fā)事故是否總是最佳選擇在領(lǐng)域,僅評(píng)估影響業(yè)務(wù)正常運(yùn)行的時(shí)間無(wú)異于給嬰兒浸有白蘭地的奶嘴。
在團(tuán)隊(duì)紛紛談起工作效率的時(shí)候,對(duì)運(yùn)維工作者,他們通常喜歡用「故障的平均解決時(shí)間」來(lái)衡量團(tuán)隊(duì)的工作效率。然而這往往是不正確的。一個(gè)迅速解決大量突發(fā)事故的團(tuán)隊(duì)十分高效,而實(shí)際上這更有可能意味著該團(tuán)隊(duì)的基礎(chǔ)設(shè)施十分脆弱易損。那我們應(yīng)該使用什么標(biāo)準(zhǔn)來(lái)衡量團(tuán)隊(duì)的工作效率呢?
**本文系國(guó)內(nèi) ITOM 管理平臺(tái) OneAPM 翻譯整理自Dan Turchin 2015 撰寫的文章
《What is MTTR?Or why not to feed the baby cognac》,**
MTTR(平均恢復(fù)前時(shí)間)是什么?我們不已字面的角度去回答它,這個(gè)提問更傾向于它的哲學(xué)意義?;诮鉀Q突發(fā)事故的時(shí)間來(lái)測(cè)量評(píng)估工作效率已經(jīng)過于絕對(duì),顯得老舊。就如同大海中的一帆孤舟,漂泊不定,不知方向。
如同禪宗關(guān)于只手之聲的謎語(yǔ)一般,解謎的要點(diǎn)是首先提問如下問題:
什么是突發(fā)事故?
解決突發(fā)事故意味著什么?
解決問題是不是越快越好?
我的答案如下:
(突發(fā)事故)是對(duì)人、進(jìn)程或事物有負(fù)面影響的,被某些非預(yù)期行為觸發(fā)的問題。它們通常是更嚴(yán)重問題的征兆,經(jīng)常可能導(dǎo)致系統(tǒng)或者業(yè)務(wù)發(fā)生毀滅性的的災(zāi)難。并且通常能經(jīng)由常規(guī)方式修復(fù),比如重啟機(jī)器、重新連接、重啟程序三部曲。
但是對(duì)于IT運(yùn)維的目標(biāo),并不是通過修復(fù)自己制造的問題而獲取贊譽(yù),而是經(jīng)營(yíng)一個(gè)不會(huì)出現(xiàn)大量突發(fā)事故的健康的服務(wù)器環(huán)境。由「平均恢復(fù)前時(shí)間」所驅(qū)動(dòng)的生產(chǎn)運(yùn)作系統(tǒng)管理通常會(huì)誤認(rèn)為,一個(gè)迅速解決大量突發(fā)事故的團(tuán)隊(duì)十分高效,而實(shí)際上這更有可能意味著該團(tuán)隊(duì)的基礎(chǔ)設(shè)施十分脆弱易損。
通常認(rèn)為解決突發(fā)事故是積極舉措。然而事實(shí)上解決突發(fā)事故時(shí),正確的做法是首先判定被評(píng)估對(duì)象。以「平均恢復(fù)前時(shí)間」為評(píng)估手段可能會(huì)掩飾警示,將紅燈變?yōu)榘踩木G燈。其他度量手段,例如平均故障間隔時(shí)間,對(duì)于判定基礎(chǔ)設(shè)施是否保持一貫健康運(yùn)行狀態(tài)而言,是更佳的度量指標(biāo)。
在IT領(lǐng)域,僅評(píng)估影響業(yè)務(wù)正常運(yùn)行的時(shí)間無(wú)異于給嬰兒浸有白蘭地的奶嘴。雖然孩子迅速停止哭泣,但他的爸爸卻可能因此入獄(然而媽媽絕對(duì)不會(huì)作出給嬰兒喂酒的糟糕決斷)。
(平均恢復(fù)前時(shí)間)是討論運(yùn)營(yíng)卓越性的基點(diǎn)。它的價(jià)值在每個(gè)企業(yè)中不盡相同,且是眾多評(píng)價(jià)健康進(jìn)程和基礎(chǔ)設(shè)施的指標(biāo)之一。最好的統(tǒng)計(jì)方法是計(jì)算全時(shí)段所有突發(fā)事件在「未解決狀態(tài)」下的時(shí)長(zhǎng),而不是事件「被解決」?fàn)頻態(tài)下的時(shí)長(zhǎng)除以突發(fā)事件總數(shù)。在后一種情況下,(系統(tǒng)正常運(yùn)行)持續(xù)時(shí)間是基于機(jī)器時(shí)間戳(區(qū)別于運(yùn)營(yíng)人員提供的狀態(tài)改變點(diǎn))進(jìn)行計(jì)算的,此時(shí)機(jī)器會(huì)使用監(jiān)測(cè)數(shù)據(jù)(作為基線),重啟的相同突發(fā)事件(或稱為震蕩)總會(huì)被認(rèn)定為獨(dú)立突發(fā)事件。
請(qǐng)不要把這篇文章看做是 IT 技術(shù)準(zhǔn)則的無(wú)端攻擊,請(qǐng)將它看作是一封邀請(qǐng)信,邀請(qǐng)你花半個(gè)小時(shí)來(lái)評(píng)估 MTTR 否是與商業(yè)價(jià)最契合的度量手段。
OneAlert 是北京藍(lán)海訊通科技有限公司旗下產(chǎn)品,中國(guó)首個(gè) SaaS 模式的云告警平臺(tái),集成國(guó)內(nèi)外主流監(jiān)控/支撐系統(tǒng),實(shí)現(xiàn)一個(gè)平臺(tái)上集中處理所有IT事件,提升IT可靠性。想了解更多信息,請(qǐng)?jiān)L問 OneAlert 官網(wǎng) 。
本文轉(zhuǎn)自 OneAPM 官方博客
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/7962.html
摘要:平均解決事件解決時(shí)間是衡量業(yè)務(wù)準(zhǔn)備的最佳標(biāo)準(zhǔn)。平均每小時(shí)折合損失。說(shuō)明整個(gè)團(tuán)隊(duì)的響應(yīng)及時(shí)率是不錯(cuò)的。小結(jié)致力減少告警數(shù)量及時(shí)響應(yīng)如果不能及時(shí)響應(yīng),能夠升級(jí)處理,最終提升解決時(shí)間,個(gè)核心關(guān)鍵指標(biāo)是運(yùn)維支撐工作非常關(guān)鍵的指標(biāo)。 很難說(shuō),生活在這個(gè)數(shù)據(jù)大爆炸的時(shí)代對(duì)運(yùn)維同學(xué)是福還是禍。靈活的監(jiān)控系統(tǒng)、開放 API 和易用的數(shù)據(jù)可視化資源可以將任何想要的數(shù)據(jù)圖表化地顯示出來(lái),但是,過多的數(shù)據(jù)容...
摘要:告警當(dāng)一個(gè)問題通過告警系統(tǒng)將消息以短信電話郵件等方式告知給用戶時(shí),我們稱之為一條告警。圖統(tǒng)一告警系統(tǒng)結(jié)構(gòu)圖告警收斂對(duì)于告警平臺(tái)每天會(huì)產(chǎn)生數(shù)以萬(wàn)計(jì)的告警,這些告警對(duì)于運(yùn)維或開發(fā)人員都需要去分析甄別優(yōu)先級(jí)并處理故障。 一、背景一套監(jiān)控系統(tǒng)檢測(cè)和告警是密不可分的,檢測(cè)用來(lái)發(fā)現(xiàn)異常,告警用來(lái)將問題信息發(fā)送給相應(yīng)的人。v...
摘要:總故障時(shí)間是關(guān)于告警事件數(shù)量與各告警事件時(shí)長(zhǎng)的函數(shù)。一個(gè)月的告警數(shù)據(jù)顯示平均響應(yīng)時(shí)間為分鐘平均解決時(shí)間為分鐘。確定團(tuán)隊(duì)領(lǐng)導(dǎo)人此人將在解決故障期間帶領(lǐng)團(tuán)隊(duì)工作。找到并解決問題事件解決時(shí)間大部分花在確定告警問題的過程中。 前不久,我們討論了運(yùn)維不容錯(cuò)過的 4個(gè)關(guān)鍵指標(biāo),其中平均解決時(shí)間(MTTR)被認(rèn)為是衡量業(yè)務(wù)的最佳標(biāo)準(zhǔn),隨后也分析了「告警等級(jí)」對(duì)MTTR的重要性。 正確看待 MTTR ...
摘要:為了掌握你的告警事件響應(yīng)時(shí)間,在你已經(jīng)開始處理告警時(shí),強(qiáng)烈建議及時(shí)響應(yīng)認(rèn)領(lǐng),例如通過移動(dòng)端微信頁(yè)面移動(dòng)等方式及時(shí)認(rèn)領(lǐng)。這一點(diǎn)國(guó)外做的很棒,在短信電話移動(dòng)都可以很容易確認(rèn)認(rèn)領(lǐng)在微信端可以認(rèn)領(lǐng)和關(guān)閉。 這是《運(yùn)維不容錯(cuò)過的4個(gè)關(guān)鍵指標(biāo)》的姐妹篇,上篇文章介紹了優(yōu)秀運(yùn)維團(tuán)隊(duì)需要關(guān)注的4個(gè)關(guān)鍵指標(biāo),我們分享了平均恢復(fù)時(shí)間 MTTR、平均響應(yīng)時(shí)間 MTTA 等概念。這篇是介紹一些實(shí)踐方法,更好的...
閱讀 3573·2023-04-25 19:56
閱讀 1681·2021-11-12 10:36
閱讀 1800·2021-11-08 13:19
閱讀 1553·2019-08-30 14:06
閱讀 3045·2019-08-30 11:01
閱讀 1752·2019-08-29 13:23
閱讀 2752·2019-08-29 11:18
閱讀 3439·2019-08-26 13:35