文章前言
技術(shù)背景
問(wèn)題描述
發(fā)送告警信息的定時(shí)任務(wù)無(wú)法執(zhí)行,報(bào)錯(cuò)輸出文件目錄不存在。
發(fā)送告警信息的定時(shí)任務(wù)(send_JF.sh)無(wú)法執(zhí)行,報(bào)錯(cuò)系統(tǒng)JF不存在。
檢查MGR進(jìn)程參數(shù):不論MGR進(jìn)程是否為手動(dòng)創(chuàng)建,都要仔細(xì)檢查其參數(shù)配置。推廣到更一般的情況,就是在進(jìn)行操作時(shí),對(duì)所有與該操作有關(guān)的信息進(jìn)行核查。
告警腳本完整測(cè)試:部署告警腳本的時(shí)候,需要對(duì)所有涉及的腳本進(jìn)行測(cè)試。推廣到更一般的情況,就是在進(jìn)行操作時(shí),對(duì)所有可能觸發(fā)該操作的情況進(jìn)行校驗(yàn)。
引發(fā)思考
更多拓展
總 結(jié)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/129671.html
摘要:隨著人工智能時(shí)代的到來(lái),攜程生產(chǎn)環(huán)境運(yùn)維進(jìn)入了新的運(yùn)維時(shí)代。本文選取了幾種典型的運(yùn)維場(chǎng)景對(duì)在攜程的踐行展開(kāi)了介紹,首先讓我們從概念認(rèn)識(shí)下。針對(duì)應(yīng)用異常指標(biāo)檢測(cè)這種場(chǎng)景,抽取一定的樣本統(tǒng)計(jì),在基于專(zhuān)家經(jīng)驗(yàn)標(biāo)注下的準(zhǔn)確率可達(dá)到以上,召回率接近。 作者簡(jiǎn)介徐新龍,攜程技術(shù)保障中心應(yīng)用管理團(tuán)隊(duì)高級(jí)工程師,負(fù)責(zé)多個(gè)AIOps項(xiàng)目的設(shè)計(jì)與研發(fā)。信號(hào)處理專(zhuān)業(yè)碩士畢業(yè),對(duì)人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)及數(shù)學(xué)有...
摘要:相當(dāng)于分布式數(shù)據(jù)庫(kù)的大腦,一方面負(fù)責(zé)收集和維護(hù)數(shù)據(jù)在各個(gè)節(jié)點(diǎn)的分布情況,另一方面承擔(dān)調(diào)度器的角色,根據(jù)數(shù)據(jù)分布狀況以及各個(gè)存儲(chǔ)節(jié)點(diǎn)的負(fù)載來(lái)采取合適的調(diào)度策略,維持整個(gè)系統(tǒng)的平衡與穩(wěn)定。原文鏈接雷神自動(dòng)化運(yùn)維平臺(tái) 作者:瞿鍇,同程藝龍資深 DBA 背景介紹 隨著互聯(lián)網(wǎng)的飛速發(fā)展,業(yè)務(wù)量可能在短短的時(shí)間內(nèi)爆發(fā)式地增長(zhǎng),對(duì)應(yīng)的數(shù)據(jù)量可能快速地從幾百 GB 漲到幾百個(gè) TB,傳統(tǒng)的單機(jī)數(shù)據(jù)庫(kù)提...
摘要:為了掌握你的告警事件響應(yīng)時(shí)間,在你已經(jīng)開(kāi)始處理告警時(shí),強(qiáng)烈建議及時(shí)響應(yīng)認(rèn)領(lǐng),例如通過(guò)移動(dòng)端微信頁(yè)面移動(dòng)等方式及時(shí)認(rèn)領(lǐng)。這一點(diǎn)國(guó)外做的很棒,在短信電話(huà)移動(dòng)都可以很容易確認(rèn)認(rèn)領(lǐng)在微信端可以認(rèn)領(lǐng)和關(guān)閉。 這是《運(yùn)維不容錯(cuò)過(guò)的4個(gè)關(guān)鍵指標(biāo)》的姐妹篇,上篇文章介紹了優(yōu)秀運(yùn)維團(tuán)隊(duì)需要關(guān)注的4個(gè)關(guān)鍵指標(biāo),我們分享了平均恢復(fù)時(shí)間 MTTR、平均響應(yīng)時(shí)間 MTTA 等概念。這篇是介紹一些實(shí)踐方法,更好的...
摘要:告警當(dāng)一個(gè)問(wèn)題通過(guò)告警系統(tǒng)將消息以短信電話(huà)郵件等方式告知給用戶(hù)時(shí),我們稱(chēng)之為一條告警。圖統(tǒng)一告警系統(tǒng)結(jié)構(gòu)圖告警收斂對(duì)于告警平臺(tái)每天會(huì)產(chǎn)生數(shù)以萬(wàn)計(jì)的告警,這些告警對(duì)于運(yùn)維或開(kāi)發(fā)人員都需要去分析甄別優(yōu)先級(jí)并處理故障。 一、背景一套監(jiān)控系統(tǒng)檢測(cè)和告警是密不可分的,檢測(cè)用來(lái)發(fā)現(xiàn)異常,告警用來(lái)將問(wèn)題信息發(fā)送給相應(yīng)的人。v...
閱讀 1357·2023-01-11 13:20
閱讀 1707·2023-01-11 13:20
閱讀 1215·2023-01-11 13:20
閱讀 1906·2023-01-11 13:20
閱讀 4165·2023-01-11 13:20
閱讀 2757·2023-01-11 13:20
閱讀 1402·2023-01-11 13:20
閱讀 3672·2023-01-11 13:20