摘要:自動化監(jiān)控這里我需要問兩個重要的問題為什么洪水警戒會一直發(fā)生并且為什么會愈演愈烈問題的根源其實是基于告警監(jiān)控的積極一面自動化。所以,我們對配置好閾值,并把這項艱巨的工作委派給它。開發(fā)人員通過吸收客戶的反饋指導(dǎo),會選擇短平快的項目。
如果你受困于 Nagios 的告警洪潮中不能自拔,那么這兩篇連載博客就是為你而生的。讓我們來詳細(xì)的闡述下這個問題!
運維人員都有著獨立的監(jiān)控工具,因此會經(jīng)常受到 Nagios 告警吵鬧的影響。很多運維人員對 Nagios 都是愛恨交加的,Nagios 給了你實時的可見性,可以了解你的 IT 基礎(chǔ)設(shè)施的內(nèi)部運作。用 Naigos,你可以辨認(rèn)出哪一臺主機內(nèi)存不足,哪臺服務(wù)器會占用太多 CPU 周期,哪一個應(yīng)用由于訪問時間太長而跳轉(zhuǎn)離開。你也能夠足夠早的得到告警信息,在他們影響最終用戶之前解決掉問題,最大限度的讓 Nagios 為你而戰(zhàn)。
然而這些都是理論上的,不難發(fā)現(xiàn),Nagios 最終導(dǎo)致的問題跟它解決掉的問題其實是一樣多的。讓我們退一小步來講,Nagios 實際上并不會引起問題,只是它會使運維團隊鑒別出真正的問題時更加困難。舉個例子,當(dāng)小孩子哭鬧時,并不一定是真的做錯了什么,他們只是想被關(guān)注,或是因為他們經(jīng)驗有限,無法處理一件微不足道的小事,而在他們看來這卻是一個大大的問題,所以會使勁兒的哭。作為父母,我們知道摔傷的膝蓋只需要一個創(chuàng)可貼,但在疼痛來臨的那一刻,你的孩子會認(rèn)為他可能永遠(yuǎn)無法再走路了。
處理 Nagios 告警就像哄一個哭泣的孩子一樣,從外觀上看,我們并沒有什么好的方法能夠輕松區(qū)分一個摔傷的膝蓋和一個折斷的腿。因為 Nagios(實際上也是大多數(shù)監(jiān)控系統(tǒng)的通?。┑拿恳粋€告警都看起來像即將到來的重大問題,又或者只是一個平常的小事而已。因此即便父母近乎一瞬間就會知道,他們手上有一個亟需處理的問題需要解決,但關(guān)鍵是我們并不能區(qū)分這鱷魚的眼淚是真是假。
這里我需要問兩個重要的問題:為什么洪水警戒會一直發(fā)生?并且為什么會愈演愈烈?
問題的根源其實是基于告警監(jiān)控的積極一面:自動化。沒有任何一個運維人員,甚至是整個運維團隊,能夠手動解析成千上萬個數(shù)據(jù),用來查明問題。沒有人會要求運營團隊時刻盯著圖表去指出隨時出現(xiàn)的問題所在。
所以,我們對 Nagios 配置好閾值,并把這項艱巨的工作委派給它。然后 Nagios 會通過我們設(shè)定好的所有的監(jiān)控去尋找超過閾值的事件,并向我們報告。
說到這里,發(fā)現(xiàn)問題了嗎?
純自動化終歸不如人工智能,窗戶打開了,新鮮空氣伴隨著蒼蠅蚊子都會進來。最終的結(jié)果會比你想象的直接得多:設(shè)定的這種配置,會把我們埋葬在浪潮般的告警洪流中,這就是 Nagios 所做的事情。
那么如何解決這個左右為難的問題呢?首先我們先列出問題點都有哪些:
1、無法辨認(rèn)
現(xiàn)代的應(yīng)用已經(jīng)不再是單多帶帶立的個體了,它不再依賴于一個強大的服務(wù)器,相反它可以從防火墻、服務(wù)器直接上升到云層共享,它可能依賴于數(shù)十、甚至成百上千個服務(wù)器支持著。所以當(dāng)應(yīng)用程序遇到問題時,我們得到的是數(shù)以百計的警報,并且往往都指向同一個緣由,即使它們看起來像一個多帶帶的問題。
2、關(guān)聯(lián)性
在過去的十年中,單一的應(yīng)用之間因為許多共同的服務(wù)而彼此互通著,這一問題將隨著時間的推移而變得更加明顯,越來越多的開發(fā)者會創(chuàng)造更多的應(yīng)用程序。這使得公司發(fā)展的很快,而對應(yīng)的擴展性,關(guān)聯(lián)穩(wěn)定性和可維護性卻日趨上演成了主角。
這也就意味著,一個單一的問題可能會影響到多個服務(wù)器,在一個服務(wù)器上的問題,也可能會逐步升級到鄰近的應(yīng)用層面,逐漸從幾十個服務(wù)器中創(chuàng)造一系列告警。
然而,哪一個服務(wù)器是根源?在一個巨大的告警洪流中,它是不可能區(qū)分出來的。
3、快節(jié)奏的時代
在這個快節(jié)奏的時代,工程師團隊必須調(diào)整他們的目標(biāo)與頂層的業(yè)務(wù)相結(jié)合。這種轉(zhuǎn)變意味著,我們現(xiàn)在會越來越少的看到長達幾年之久的,在學(xué)術(shù)上非常靚麗的研發(fā)。開發(fā)人員通過吸收客戶的反饋指導(dǎo),會選擇短平快的項目。不幸的是,這影響了我們保持準(zhǔn)確和最新監(jiān)控配置的能力。當(dāng)我們完成配置的閾值和分類的時候,我們的應(yīng)用已經(jīng)變了。隨著時間的推移,我們積累了大量無意義的監(jiān)測或者過時的閾值數(shù)據(jù)。
然后,你能夠區(qū)分出這些遺留的噪音哪些是應(yīng)該被忽視的,哪些是可以制止的,哪些又是會導(dǎo)致宕機的亟需待解決的問題嗎?
的確,配置實時的監(jiān)控閾值是一項非常重要的工作,但不幸的是,我們的監(jiān)控告警系統(tǒng)壓根兒跟不上時代的變遷。
Onealert 智能告警監(jiān)控可以把你的 Nagios 告警關(guān)聯(lián)到任一高層事件,因此你能更快的辨認(rèn)出關(guān)聯(lián)性的問題,而不是人工去涉足數(shù)以千計的 Nagios 告警洪流,你現(xiàn)在能夠以統(tǒng)一的標(biāo)準(zhǔn)來檢閱它們,清晰的從噪音中分離出有意義的信號。這就是運維團隊所需要的辨認(rèn)關(guān)鍵性信息的能力,關(guān)聯(lián)告警的能力,跟上快節(jié)奏時代的能力。
離開 Onealert 會讓你受到威脅,配置錯誤,宕機等一系列問題,因為真正的解決方案已經(jīng)埋葬在了告警浪潮之中。
敬請期待下一節(jié),我將更深入的探討,通過 Onealert 告警信息關(guān)聯(lián),如何智能的添加進你的 Naigos 告警中。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/7940.html
摘要:音視頻音視頻隨著互聯(lián)網(wǎng)的發(fā)展,對音視頻的需求越來越多,然而音視頻無亂是播放還是編解碼,封裝對性能要求都比較高,那現(xiàn)階段的前端再音視頻領(lǐng)域都能做些什么呢。 @(音視頻)[Audio|Video|MSE] 音視頻隨著互聯(lián)網(wǎng)的發(fā)展,對音視頻的需求越來越多,然而音視頻無亂是播放還是編解碼,封裝對性能要求都比較高,那現(xiàn)階段的前端再音視頻領(lǐng)域都能做些什么呢。 [TOC] 音頻或視頻的播放 htm...
摘要:測試和開發(fā)可以說是前世的一對宿孽,今世的一對兒冤家。如果測試在工作中不講究方式方法讓已經(jīng)比較緊張的測試開發(fā)關(guān)系雪上加霜。將按照嚴(yán)重程度進行分級管理。 測試和開發(fā)可以說是前世的一對宿孽,今世的一對兒冤家。開發(fā)的工作就是按照PM的設(shè)計將產(chǎn)品最終造出來,而測試則是在開發(fā)已完成的工作里找錯誤,尋不是。顯然,測試這樣的工作會讓開發(fā)很不爽,其實不但是開發(fā),每個人都不喜歡自己的勞動成果別別人挑毛病。...
摘要:測試和開發(fā)可以說是前世的一對宿孽,今世的一對兒冤家。如果測試在工作中不講究方式方法讓已經(jīng)比較緊張的測試開發(fā)關(guān)系雪上加霜。將按照嚴(yán)重程度進行分級管理。 測試和開發(fā)可以說是前世的一對宿孽,今世的一對兒冤家。開發(fā)的工作就是按照PM的設(shè)計將產(chǎn)品最終造出來,而測試則是在開發(fā)已完成的工作里找錯誤,尋不是。顯然,測試這樣的工作會讓開發(fā)很不爽,其實不但是開發(fā),每個人都不喜歡自己的勞動成果別別人挑毛病。...
摘要:測試和開發(fā)可以說是前世的一對宿孽,今世的一對兒冤家。如果測試在工作中不講究方式方法讓已經(jīng)比較緊張的測試開發(fā)關(guān)系雪上加霜。將按照嚴(yán)重程度進行分級管理。 測試和開發(fā)可以說是前世的一對宿孽,今世的一對兒冤家。開發(fā)的工作就是按照PM的設(shè)計將產(chǎn)品最終造出來,而測試則是在開發(fā)已完成的工作里找錯誤,尋不是。顯然,測試這樣的工作會讓開發(fā)很不爽,其實不但是開發(fā),每個人都不喜歡自己的勞動成果別別人挑毛病。...
閱讀 855·2021-10-13 09:39
閱讀 3732·2021-10-12 10:12
閱讀 1791·2021-08-13 15:07
閱讀 1038·2019-08-29 15:31
閱讀 2913·2019-08-26 13:25
閱讀 1807·2019-08-23 18:38
閱讀 1913·2019-08-23 18:25
閱讀 1877·2019-08-23 17:20