摘要:報警阻塞,發(fā)送效率低下這種情況下,報警是根據(jù)用戶一個個用戶發(fā)送。效果極大的簡化了報警配置,僅配置了兩個。發(fā)送效率提高,對于一個報警,無論發(fā)送人數(shù)多少,都只需要觸發(fā)執(zhí)行一次腳本。
通常zabbix告警主要可以通過三種方式
1. 自帶的直接調(diào)用消息接口服務(wù) 2. 執(zhí)行自定義腳本發(fā)送消息 3. 通過send remote commend 的方式通過執(zhí)行腳本發(fā)送
2和3的本質(zhì)都只通過zabbix的action去調(diào)用執(zhí)行服務(wù)器上的腳本來發(fā)送,報警信息通過在執(zhí)行腳本后帶參數(shù)傳進去。
這個流程很容易跑通, 也非常的簡單可靠。 但是,規(guī)模稍大報警量一多,問題立馬就顯現(xiàn)出來了。
* 報警阻塞,發(fā)送效率低下 * 這種情況下, 報警是根據(jù)用戶一個個用戶發(fā)送。 也就是說, 如果這個報警有十個收件人,那要分到觸發(fā)十次發(fā)送腳本來實現(xiàn)發(fā)送。 * 并且這個發(fā)送還是線性的不是多線程的, 要等上一個發(fā)送完了, 再接著發(fā)送下一個。報警稍微多一點或者收件人稍微多一點, 這個報警的延遲就很大了。 * 風(fēng)暴控制 * 網(wǎng)絡(luò)抖動是個大坑, 通過proxy的可以通過依賴來實現(xiàn)一定的風(fēng)暴控制, 但是直接通過服務(wù)器監(jiān)控的就很難做了 * 一旦風(fēng)暴, 很難退出。 如果sever到某個直連的idc 間網(wǎng)絡(luò)一抖動, 觸發(fā)大量報警,只能等action 執(zhí)行完 * action 維護麻煩, 這種模式下, 報警匹配發(fā)送給誰有 action來決定,有多少種組合就會有多少個action, 會導(dǎo)致 action的數(shù)量很多維護起來相當(dāng)麻煩 * 報警配置維度單一: 例如 業(yè)務(wù)dba 僅只想接受業(yè)務(wù)相關(guān)報警, 不想接受機器層面的報警, 看似簡單的需求配置起來會很麻煩甚至難以實現(xiàn) * 報警信息單一: 比如要給報警內(nèi)容里加上一個負(fù)責(zé)人,方便escalation后直接聯(lián)系直接負(fù)責(zé)人都挺麻煩。
為了解決以上問題, 我設(shè)計了smail 1.0來解決
smail 有規(guī)則解析和風(fēng)暴控制兩個模塊組成
規(guī)則引擎: * 規(guī)則引擎直接定了一個規(guī)則語法, 主要實現(xiàn)支持從 設(shè)備名字和觸發(fā)器名字兩個維度來匹配報警, 對于符合匹配規(guī)則的報警則發(fā)給對應(yīng)規(guī)則的收件人, 匹配規(guī)則支持正則: * 匹配規(guī)則支持正則表達式 * 判斷故障級別, 根據(jù)級別確認(rèn)發(fā)送短信微信還是郵件
風(fēng)暴控制: * 風(fēng)暴控制通過報警發(fā)送數(shù)量計數(shù),對單位時間內(nèi)發(fā)送數(shù)量超過一定數(shù)量則觸發(fā)風(fēng)暴控制, 停止發(fā)送報警。
效果:
1. 極大的簡化了報警配置, 僅配置了兩個action。 規(guī)則引擎直接使用yaml 配置文件和正則配置方法, 對于 python棧的維護人來非常順手。 2. 發(fā)送效率提高,對于一個報警, 無論發(fā)送人數(shù)多少, 都只需要觸發(fā)執(zhí)行一次腳本。 3. 報警的可追溯,日志詳細(xì)的記錄了報警的發(fā)送情況 4. 同時,對報警也加入了更多的信息, 更加方便接受者判斷
這時報警郵件就變成了這個樣子
可是依舊存在的問題:
1. 發(fā)送效率依舊不高, 通過 os.fork action 依舊要等執(zhí)行完后再執(zhí)行下一個未能實現(xiàn)異步。 2. 通過簡單計數(shù)的風(fēng)暴控制機制基本沒用
2.0 版:
主要以解決發(fā)送效果為目標(biāo)。 主要是引入異步任務(wù)隊列來實現(xiàn)發(fā)送的異步,分離action 觸發(fā)腳本加快 action的執(zhí)行速度。
實際動手過程中發(fā)現(xiàn), 如果要引入mp或者 celery這樣的 task queue會新增兩個damon,這樣反而增加了復(fù)雜度。
后面直接使用了下圖這樣的簡單粗暴的方法來實現(xiàn)
triggers action 執(zhí)行的腳本直接插入的zabbix mysql (多帶帶建了一張表);然后通過crontab定時讀?。ㄒ环昼姡﹎ysql獲取報警。
風(fēng)暴控制通過判斷這一分鐘里的報警同類的條數(shù)來判斷
效果:
1. 極大的提高了action的執(zhí)行效率, 實際應(yīng)用過程中, 即使出現(xiàn)報警風(fēng)暴, 發(fā)送依舊沒有什么問題。 2. 因為action的執(zhí)行效率的提高, 風(fēng)暴控制有了一定的效果。
TODO:
1. 報警信息跟cmdb里的信息關(guān)系, 實現(xiàn)無配置或者少量配置 2. 更有效的風(fēng)暴控制方式
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/38059.html
摘要:微信的使用問題,第一要建個通信錄,找到正確的組,第二,應(yīng)用中心的創(chuàng)建并使用,第三,設(shè)置中分組要創(chuàng)建坑,解決掉就是路,解決不了還是坑。 各位看官,我是orange小菜,初來扎道,不足之處還請指教,sharing make happy ?。?! 1.我先把我的代碼甩出來,供大家參考一下,挺丑的,別介意哦! #!/usr/bin/python import requests import ...
摘要:微信的使用問題,第一要建個通信錄,找到正確的組,第二,應(yīng)用中心的創(chuàng)建并使用,第三,設(shè)置中分組要創(chuàng)建坑,解決掉就是路,解決不了還是坑。 各位看官,我是orange小菜,初來扎道,不足之處還請指教,sharing make happy ?。?! 1.我先把我的代碼甩出來,供大家參考一下,挺丑的,別介意哦! #!/usr/bin/python import requests import ...
摘要:微信報警參考文檔獲取獲取發(fā)送消息獲取用戶失敗會將消息發(fā)送給部門的人,可以查看部門修改,多個部門用分割發(fā)送報警消息傳過來的第一個參數(shù)傳過來的第二個參數(shù)傳過來的第三個參數(shù)調(diào)用類綁定企業(yè)微信的和應(yīng)用的調(diào)用實例化的類的發(fā)送信息功能,其 微信報警 #!/usr/bin/python # -- coding:utf-8 -- 參考文檔: 1、https://work.weixin...
閱讀 2797·2021-09-23 11:44
閱讀 1684·2021-09-13 10:24
閱讀 2634·2021-09-08 09:36
閱讀 1241·2019-08-30 15:54
閱讀 2262·2019-08-30 13:54
閱讀 3323·2019-08-30 10:57
閱讀 1859·2019-08-29 18:43
閱讀 3627·2019-08-29 15:10