成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

五種令人沮喪的告警垃圾及處理辦法!

mushang / 2070人閱讀

摘要:在那些緊迫的告警中,找出需要立即處理的告警更則難上加難。是應用性能管理領軍企業(yè)公司旗下產品,也是國內首個模式的云告警平臺,集成國內外主流監(jiān)控支撐系統(tǒng),實現(xiàn)一個平臺上集中處理所有事件,提升可靠性。

在 OneAlert,我們經常與運維團隊聊天。因為產品開發(fā)過程中,這樣的對話有助于了解客戶的真正痛點。「告警垃圾」——監(jiān)控系統(tǒng)中時常涌現(xiàn)的告警洪流,是運維團隊經常提到的一大痛處。

至于其原因,雖然多種多樣,但造成的后果都是一樣的:信息超載。如果每天收到幾十條甚至上百條告警提醒,你很難從中找出急需采取行動的緊迫告警。在那些緊迫的告警中,找出需要立即處理的告警更則難上加難。這種現(xiàn)象有個恰如其分的名字:告警疲勞

1.每臺主機的告警

你看到的情況:服務器監(jiān)控系統(tǒng)在同一時間發(fā)出5條緊急告警。

實際情況:你的緩存層由20臺服務器組成。其中一臺出現(xiàn)了新的配置錯誤,導致一系列的內存不足告警,每臺主機都出現(xiàn)一條告警。

在理想世界中:你只會收到一條告警,告訴你25%的主機集群出現(xiàn)問題。而且,如果你當下正忙得不可開交,可以延后該告警的處理。理想情況下,告警閥值只在集群層或角色層設置。

2.重要!=緊急

你看到的情況:主機 X、Y、Z 出現(xiàn)磁盤空間不足警告。

實際情況:一切盡在意料之中。在正常運轉了三個月之后,主機 X、Y、Z 存儲的數(shù)據逐漸增多?;蛟S你應該升級磁盤,或許你應該清理一些舊數(shù)據,但是,必須現(xiàn)在就處理么?在這夜闌人靜的時候?

在理想世界中:除非磁盤使用量突然增多,否則就不是緊急事件。無需觸發(fā)實時告警,只要每周一發(fā)送磁盤使用量報告,在其中列出磁盤空間不足的主機即可。如果能依照當前的使用速度,預測剩余的磁盤空間將在何時耗盡,就更好了。

3.非自適應性的閥值

你看到的情況:每個周一,午餐過后,都會出現(xiàn)大量的告警。

實際情況:你已經努力工作以優(yōu)化配置 Nagios 監(jiān)控的告警閥值。現(xiàn)在,它們不會每天無謂地發(fā)送告警。但是,一到流量特別大的某個工作日,還是會觸發(fā)意料之中的告警。你怎么辦?確認該告警,然后無視它。

在理想世界中:你的流量是有起伏規(guī)律的,監(jiān)控系統(tǒng)能夠掌握這種規(guī)律。如果每到下午1點負載就會增加,告警閥值也應該相應上升。告警只應在出現(xiàn)異常負載時觸發(fā),否則就是沒有意義的告警。

4.同樣的問題,不同的系統(tǒng)

你看到的情況:Nagios、Pingdom、NewRelic、KeyNote 還有 Splunk 在同一時間發(fā)出重要告警,與此同時,ZenDesk 上的客戶投訴也不斷增加。

實際情況:兩個 Mongo 節(jié)點出現(xiàn)數(shù)據損壞,導致大量的磁盤 IO 以及事務錯誤。這類問題會波及服務器層,應用層以及用戶層。因此,所有監(jiān)控工具都會發(fā)出告警。

在理想世界中:你只會從最先捕獲該問題的系統(tǒng)處收到一次告警,此后,任何因此而達到告警閥值的監(jiān)控系統(tǒng)都會將其告警信息傳給同一個「事件線程」。

5.瞬態(tài)告警

你看到的情況:每個人都會遇到這樣的情況。同樣的問題每隔幾天就出現(xiàn)一次,持續(xù)時間不過幾分鐘,來得快去得也快。說實話,你已經忙得不可開交了,近期內也不大會去排除這種問題。

實際情況:可能是某個 cron 作業(yè)占用了過量的網絡資源,又或是應用中某個 race-condition 導致了數(shù)據庫死鎖,也可能是某個不常用的功能導致了后端進程崩潰。

在理想世界中:你可以標記該問題,之后再去解決。這樣,你只會在下個月再遇到該問題,并得到一份報告,顯示了該問題通常的發(fā)生時間(當然還有相鄰時間內容易發(fā)生的問題和與之相關的問題)。

你遇到了哪些告警垃圾?想不想與我們分享?請在文章下面的評論區(qū)留下你的反饋。

OneAlert 是應用性能管理領軍企業(yè) OneAPM 公司旗下產品,也是國內首個 SaaS 模式的云告警平臺,集成國內外主流監(jiān)控/支撐系統(tǒng),實現(xiàn)一個平臺上集中處理所有 IT 事件,提升 IT 可靠性。想了解更多信息,請訪問 OneAlert 官網 。
本文轉自 OneAPM 官方博客

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://systransis.cn/yun/7938.html

相關文章

  • 如何把關聯(lián)性告警智能添加到 Nagios 上?(2)

    摘要:告警關聯(lián)唯一使監(jiān)控和報警都步入正軌的好辦法,就是通過告警關聯(lián)。企業(yè)如果適應了告警關聯(lián),信息告警的圖表盤上確實能減少很多壓力。 上節(jié)回顧 對于許多 IT 和運維團隊來說,Nagios 既是一個福音也是一個詛咒。一方面,Naigos 在 IT 應用的工作領域中,給予了你可以實時查看告警數(shù)據的可能性;但是另一方面,Nagios 也能夠生成超級多的告警,對于任何一個運維人員或是運維團隊來說都是...

    娣辯孩 評論0 收藏0
  • 對抗不可執(zhí)行告警四種措施

    摘要:例如,把提示無效信用卡賬號的告警替換為一個可執(zhí)行的告警,比如指示用戶支付成功率急劇下降的告警可能系統(tǒng)會做出較大的變化,需要回滾操作。因此,不斷完善告警也是同樣非常重要的,所以要養(yǎng)成定期瀏覽和刪除不可執(zhí)行告警的習慣。 對于運維團隊而言,很多告警其實并不能幫助他們解決掉實際的問題,相反有時會加重多余的負擔,這主要是因為大多數(shù)的告警并不具備足夠的可執(zhí)行性: 它們指出的問題壓根兒不需要響應 ...

    zacklee 評論0 收藏0
  • Java 10 新特性解密,引入類型推斷機制,2018 年 3 月 20 日發(fā)布

    摘要:目標發(fā)布目前有兩個主要功能針對局部變量類型推斷這將刪除大部分對象實例化所需的冗長的包含手動類型信息整合源樹的庫即不同的庫將被合并成一個單一的存儲庫。特別是,承諾為局部變量實例化引入類型推斷機制,并將現(xiàn)有的存儲庫合并到一個存儲庫中。 JDK 10 何時發(fā)布? JDK 10 是 Java 10 標準版的部分實現(xiàn),將于 2018 年 3 月 20 日發(fā)布,改進的關鍵點包括一個本地類型推斷、一...

    caspar 評論0 收藏0

發(fā)表評論

0條評論

mushang

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<