摘要:例如,把提示無效信用卡賬號的告警替換為一個可執(zhí)行的告警,比如指示用戶支付成功率急劇下降的告警可能系統(tǒng)會做出較大的變化,需要回滾操作。因此,不斷完善告警也是同樣非常重要的,所以要養(yǎng)成定期瀏覽和刪除不可執(zhí)行告警的習慣。
對于運維團隊而言,很多告警其實并不能幫助他們解決掉實際的問題,相反有時會加重多余的負擔,這主要是因為大多數(shù)的告警并不具備足夠的可執(zhí)行性:
它們指出的問題壓根兒不需要響應(yīng)
它們?nèi)鄙訇P(guān)鍵的信息,迫使你需要花費很長的時間去尋找更多的源頭,用以來估量它們的緊迫性
過量的不可執(zhí)行告警會造成告警疲勞,浪費時間和資源,從而耽誤你解決實質(zhì)性的問題,可能這些已經(jīng)在你身邊正悄無聲息地發(fā)生著:
你是否自動忽略收到的多余告警?
你是否收到很多與你無關(guān)的告警?
每當你收到告警時,是否為了獲得你真正需要的信息而采取一系列常規(guī)的行動?
如果有以上這樣的情況,就能確定你是在遭受著告警疲勞,本篇將會列出四種常見的不可執(zhí)行告警及其解決辦法。
問題:標題是告警的重要組成部分,因為它是你第一眼看到的東西。含糊不清的標題會迫使人們?yōu)榱双@取更多的信息而對告警主體進行不必要的挖掘,而當不同的告警使用相似的標題時,會使你感到更加沮喪、困惑,導致時間和精力上的浪費。
例子:在收到標題為「CPU LOAD 1.90」的告警后,你又收到一個標題為「CPU LOAD 1.80」的告警。這倆告警是否是關(guān)于同一個服務(wù)器的呢?負載1.80是否關(guān)鍵?這個問題會有什么影響?如果告警能提供解答而不是添加更多的問題,豈不是更好嗎?
改進措施:所有的告警標題都應(yīng)該簡短且具有一定的描述性,它們應(yīng)該讓人在看到第一眼的時候就知道問題是什么,出現(xiàn)在哪里并且需要怎樣去解決。例如「Server billing-1 load is critical for 5 min」就比「CPU LOAD 1.80」更具有執(zhí)行性。
問題:告警的內(nèi)容通常是有限或者模糊的,導致我們?yōu)榱双@取更深層次的理解,往往會花費大量的時間去解讀這些告警,以求查找到更多的信息。有時,在 Nagios,Graphite,Pingdom 或 New Relic 的某處發(fā)現(xiàn)了相關(guān)的信息,但實際上大量的時間并不是用在了解決問題上,而是花在了尋找上面。
例子:在解決服務(wù)器過載問題時,大家都是使用著差不多的套路:譬如連接服務(wù)器,查看 load 值等。而且,下次一個相似的告警發(fā)生時,你還得一次次地執(zhí)行這些相同的步驟。
改進措施:我們熟練的打開操作系統(tǒng)鍵入問題信息,來追蹤那些告警的源頭去進行整體考量。假如告警信息這個載體能呈現(xiàn)給我們更多有用的源信息的話,比如:執(zhí)行的行為或者相關(guān)資源的鏈接(這些資源包括腳本、協(xié)議或者研發(fā)者對問題發(fā)生原因的理解),那么對于決策和追蹤排查的效能就會有很明顯地提升.
問題:生產(chǎn)環(huán)境是復雜且動態(tài)的。為了保持系統(tǒng)的穩(wěn)定性,運維和研發(fā)團隊需要讀取到重要的系統(tǒng)信息。直覺告訴我們,這需要將每個告警和異常通知都給到這些人,然而實際上,大多數(shù)的告警收到后并沒有采取有效措施,并且還時常會把有用的告警覆蓋掉。
例子:用戶輸入無效的信用卡賬號,會立即發(fā)送告警,這個信息應(yīng)該非常值得關(guān)注才對。但我們不能控制用戶的行為,所以一般情況下這個告警只是額外的噪聲而已,對此我們也毫無辦法。
改進措施:如果收到告警后不能立即采取行動,那就別發(fā)送它,而去找到需要你做出反應(yīng)的問題。例如,把提示無效信用卡賬號的告警替換為一個可執(zhí)行的告警,比如指示用戶支付成功率急劇下降的告警———可能系統(tǒng)會做出較大的變化,需要回滾操作。另外一種解決辦法是采用每日或每周報告,匯總不需要實時處理的信息。這樣,真正有用的信息就可以實時地被接收來處理。
問題:在很多公司中,每個人都接收著所有的告警———這種工作模式通常用于小團隊,每個人都參與著所有的事情。然而,當團隊規(guī)模變大,人們開始分工時,「告警風暴」很快就變成了拖累。
例子:我們使用的第三方支付提供的數(shù)據(jù)庫連接出現(xiàn)了問題,此時交給DBA團隊處理并不能很好的FIX掉問題,還很有可能因為其他原因被忽視。
改進措施:只向和告警相關(guān)的人發(fā)送告警。由于告警會由多個不同的來源導致,在這些情況下,我們可以為每個來源創(chuàng)建特定的告警,選擇指定的路徑,使決策更加合理化。
具有執(zhí)行性的告警可以大大減輕你的痛苦,提高每天的工作效率。通過上面提到的簡單改變,可以產(chǎn)生巨大的影響。在如今快節(jié)奏的環(huán)境中,可執(zhí)行的告警也許很快就變得不相干了。因此,不斷完善告警也是同樣非常重要的,所以要養(yǎng)成定期瀏覽和刪除不可執(zhí)行告警的習慣。
在 OneAlert,我們重點幫助你更好地管理、追蹤、休止和分派你的告警,當然如果你有其他對抗告警可執(zhí)行性地措施,也歡迎在評論區(qū)留下你寶貴的意見。
本文轉(zhuǎn)自 OneAPM 官方博客
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/7965.html
摘要:調(diào)查研究表明,當數(shù)據(jù)中心停機時間的損失平均每分鐘近,美元時,避免這種事件是節(jié)省數(shù)據(jù)中心成本的首個也是效果最為顯著的方法。在調(diào)研機構(gòu)波洛蒙研究所進行的一項年調(diào)查中,數(shù)據(jù)中心停機的平均損失超過萬美元,最高的損失達到萬美元以上。調(diào)查研究表明,當數(shù)據(jù)中心停機時間的損失平均每分鐘近9,000美元時,避免這種事件是節(jié)省數(shù)據(jù)中心成本的首個也是效果最為顯著的方法。不過,以下有四種方法可以幫助組織的數(shù)據(jù)中心避...
摘要:告警關(guān)聯(lián)唯一使監(jiān)控和報警都步入正軌的好辦法,就是通過告警關(guān)聯(lián)。企業(yè)如果適應(yīng)了告警關(guān)聯(lián),信息告警的圖表盤上確實能減少很多壓力。 上節(jié)回顧 對于許多 IT 和運維團隊來說,Nagios 既是一個福音也是一個詛咒。一方面,Naigos 在 IT 應(yīng)用的工作領(lǐng)域中,給予了你可以實時查看告警數(shù)據(jù)的可能性;但是另一方面,Nagios 也能夠生成超級多的告警,對于任何一個運維人員或是運維團隊來說都是...
摘要:再如通過處理流數(shù)據(jù)生成簡單的報告,如五分鐘的窗口聚合數(shù)據(jù)平均值。復雜的事情還有在流數(shù)據(jù)中進行數(shù)據(jù)多維度關(guān)聯(lián)聚合塞選,從而找到復雜事件中的根因。因為各種需求,也就造就了現(xiàn)在不斷出現(xiàn)實時計算框架,而下文我們將重磅介紹我們推薦的實時計算框架。 前言 先廣而告之,本文摘自本人《大數(shù)據(jù)重磅炸彈——實時計算框架 Flink》課程第二篇,內(nèi)容首發(fā)自我的知識星球,后面持續(xù)在星球里更新,這里做個預(yù)告,今...
閱讀 2713·2021-10-22 09:55
閱讀 2073·2021-09-27 13:35
閱讀 1298·2021-08-24 10:02
閱讀 1565·2019-08-30 15:55
閱讀 1231·2019-08-30 14:13
閱讀 3499·2019-08-30 13:57
閱讀 2004·2019-08-30 11:07
閱讀 2486·2019-08-29 17:12