隨著智慧運維平臺的不斷落地,我們基于平臺能力,落地了很多場景,監(jiān)控、告警、運維操作等等,但我們的監(jiān)控場景與運維操作場景依然還是分段式的,平臺監(jiān)測到故障告警,依舊需要運維人員根據(jù)告警內(nèi)容去判斷執(zhí)行相對應的運維操作。
如何將監(jiān)控、告警能力與運維操作能力結(jié)合,使之成為一套完整的自動化流程?這就是本篇我們分享的主題——基于智慧運維平臺故障自愈場景的小“探索”。
基于智慧運維平臺監(jiān)控weblogicserverFullGC情況,模擬觸發(fā)FullGC告警,再基于平臺ATM模塊編排自愈運維操作,在告警產(chǎn)生后自動觸發(fā)故障自愈操作,完成自愈操作。
監(jiān)控自愈流程如下:
基于AMP監(jiān)控采集FullGC信息,同時針對監(jiān)控項配置告警觸發(fā)器
基于ATM配置自愈操作,完成故障時刻信息搜集、server重啟
綁定告警與自愈操作,使告警產(chǎn)生后自動觸發(fā)完成自愈動作
模擬FullGC場景,觸發(fā)故障自愈流程
同時針對JVM堆old區(qū)使用率配置了告警觸發(fā)器(PS:GC監(jiān)控場景有很多,如:FullGC次數(shù)、持久代使用率、O區(qū)使用率等等,本次僅以O區(qū)使用率作為驗證場景)。
操作內(nèi)容也很簡單,搜集了故障時刻server的堆棧信息treaddump、heapdump(PS:由于是測試,未做過多的信息搜集),之后便進行了服務重啟動作,腳本配置了采用local模式執(zhí)行。
可在監(jiān)控模板告觸發(fā)器配置時,“故障自愈”頁面配置操作綁定
或者在配置管理的“告警自愈配置”模塊新增自愈配置,綁定監(jiān)控模板和觸發(fā)場景。兩個頁面配置類似,見下圖,在故障自愈方案選擇田間之前在ATM配置好多自愈操作:
配置完成后,如下圖,則新增了一條故障自愈策略,“啟用狀態(tài)”開啟,“自動執(zhí)行”狀態(tài)開啟。其中自動執(zhí)行狀態(tài)若是未開啟,則告警產(chǎn)生后需要手動觸發(fā)自動動作,可以根據(jù)具體需要設定。
至此,一個簡單的故障自愈場景算是配置完成了。
在模擬FullGC場景之前,我們先來觀察一下正常情況下,weblogicserver的GC情況,如下圖,JVMold區(qū)使用率較低,穩(wěn)定在12.4%左右,F(xiàn)GC次數(shù)也僅有3次。
當模擬觸發(fā)了FullGC場景后,weblogicserver進程的FULLGC頻繁執(zhí)行,old區(qū)使用率也接近100%。
觀察平臺,告警如期觸發(fā):
自愈動作在告警觸發(fā)后同樣觸發(fā),如下圖,自愈觸發(fā)記錄
通過平臺GC信息采集看,JVM堆Old區(qū)使用率在觸發(fā)FULLGC前后的變化趨勢圖,從10%->100%->10%,恢復到正常水平。
Weblogicserver在模擬FullGC并自愈前后GC次數(shù)的變化趨勢圖如下圖所示,F(xiàn)ullGC次數(shù)迅速增加,觸發(fā)自愈動作重啟實例后,F(xiàn)ULLGC再次恢復實例啟動狀態(tài)。
自愈后告警狀態(tài)自動變更為“已恢復”,至此,自愈流程驗證完成。
以上便是通過智慧運維平臺AMP監(jiān)控場景、ATM運維操作場景結(jié)合,以完成從監(jiān)控,到告警產(chǎn)生,再到故障自愈的一次“探索”。過程略簡陋了些,在實際運維中,自愈場景需要考慮的點有很多,如自動or手動觸發(fā)自愈,自愈搜集哪些信息,如何確保自愈動作100%完成,風險等等,都是需要我們根據(jù)不同的故障場景,去探究分析一套安全有效的解決方案。
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/129945.html
摘要:作者介紹王藝,百度云智能運維架構研發(fā)負責人。年轉(zhuǎn)向運維方向,作為智能運維架構方向的技術負責人,致力于為百度智能運維平臺和產(chǎn)品提供高性能高可用可擴展的系統(tǒng)架構和基礎設施。持續(xù)的數(shù)據(jù)建設,是智能運維建設的關鍵。 作者介紹王藝,百度云智能運維架構研發(fā)負責人。2010年加入百度,先后負責百度鏈接庫、百度志愿計算、百度統(tǒng)一資源管理的研發(fā),經(jīng)歷過千億級網(wǎng)頁鏈接的洗禮,也調(diào)度過數(shù)十萬量級的服務器,熱衷于直...
摘要:只有當超時故障扇區(qū)等明確故障項出現(xiàn)后,兩者關聯(lián)才確診硬盤故障,否則只是隔離觀察,不報修。如果存在進程住時間超過分鐘,我們認為這個硬盤故障的影響面已擴大到了整機,需要進行重啟消除影響。 隨著阿里大數(shù)據(jù)產(chǎn)品業(yè)務的增長,服務器數(shù)量不斷增多,IT運維壓力也成比例增大。各種軟、硬件故障而造成的業(yè)務中斷,成為穩(wěn)定性影響的重要因素之一。本文詳細解讀阿里如何實現(xiàn)硬件故障預測、服務器自動下線、服務自愈以...
摘要:智能化數(shù)據(jù)中心發(fā)展的三部曲在中國電信北京研究院副總工程師楊明川看來,智能化的數(shù)據(jù)中心的發(fā)展可以被歸納為三個階段。而在最終階段,則是希望能夠?qū)崿F(xiàn)完全自動化的數(shù)據(jù)中心。對此,中國電信正在積極思考在未來智能化的數(shù)據(jù)中心里可以做一些什么樣的探索。這其中,智能化的數(shù)據(jù)中心包含兩方面含義,一方面是數(shù)據(jù)中心如何基于海量數(shù)據(jù),利用人工智能的技術,進一步去優(yōu)化數(shù)據(jù)中心的運營;另個方面是數(shù)據(jù)中心會越來越多地去承...
摘要:最新發(fā)布的全球半年度行業(yè)云跟蹤報告也顯示,年全球四大行業(yè)金融制造醫(yī)療和公共部門的行業(yè)云支出總額將高達億美元。這樣一來,華為的金融網(wǎng)絡能夠獲得市場的青睞也就順理成章了。金融業(yè)數(shù)字化轉(zhuǎn)型的加速,使得金融云越來越成為行業(yè)標配;但金融云的普及,又讓傳統(tǒng)網(wǎng)絡技術架構受到了前所未有的沖擊。這樣看來,邏輯就簡單了:金融業(yè)必須先推動傳統(tǒng)網(wǎng)絡技術架構的升級,促進金融云的普及應用,才能進一步實現(xiàn)自身的數(shù)字化轉(zhuǎn)型...
前言 以Docker為代表的容器技術縮短了企業(yè)應用從開發(fā)、構建到發(fā)布、運行的整個生命周期。Gartner推測到2022年將會有75%的全球化企業(yè)將在生產(chǎn)中使用容器化的應用(當前約為30%)。由于Docker往往難以獨立支撐起大規(guī)模容器化部署,因此誕生了Kubernetes等容器編排工具,解決了大規(guī)模容器的組織和管理難題。 但事實上,Kubernetes的使用體系還是非常復雜的,對于企業(yè)的開...
閱讀 1356·2023-01-11 13:20
閱讀 1707·2023-01-11 13:20
閱讀 1215·2023-01-11 13:20
閱讀 1906·2023-01-11 13:20
閱讀 4165·2023-01-11 13:20
閱讀 2757·2023-01-11 13:20
閱讀 1402·2023-01-11 13:20
閱讀 3671·2023-01-11 13:20