成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

端到端調(diào)用鏈監(jiān)測實施案例

IT那活兒 / 3355人閱讀
端到端調(diào)用鏈監(jiān)測實施案例
點擊上方“IT那活兒”公眾號,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了?。?! 


應(yīng)用背景



隨著越來越多的企業(yè)將業(yè)務(wù)系統(tǒng)上云,實現(xiàn)云化部署,將后端功能沉淀和分拆成多個能力服務(wù)中心,較好地規(guī)避了煙囪式建設(shè)方式,提升了能力復(fù)用,節(jié)省了項目和新業(yè)務(wù)需求開發(fā)成本。
但同時,相比傳統(tǒng)架構(gòu):
一方面,大幅度增加分布式程度、調(diào)用層次、依賴復(fù)雜度,調(diào)用隨機分發(fā),大幅度的提升了性能問題發(fā)現(xiàn)和排查定位難度;
另一方面,由于生產(chǎn)系統(tǒng)在高可用中快速切換隔離了故障源,導(dǎo)致故障源并不容易被迅速發(fā)現(xiàn)及定位,特別是當(dāng)前的系統(tǒng)環(huán)境中大量的應(yīng)用、主機、網(wǎng)絡(luò)、中間件、數(shù)據(jù)組件等交織如網(wǎng),應(yīng)用間網(wǎng)狀的調(diào)用關(guān)系導(dǎo)致各物理節(jié)點的故障源對于應(yīng)用及業(yè)務(wù)的真實影響較難評估。

圖片來源于網(wǎng)絡(luò)
如何快速發(fā)現(xiàn)問題、排查影響范圍,快速定位問題成為新的技術(shù)挑戰(zhàn)。
為了能直觀的體現(xiàn)包含系統(tǒng)上下游依賴信息的系統(tǒng)模塊關(guān)系圖譜,并實現(xiàn)問題發(fā)生初期的快速故障源定位及影響分析,我們構(gòu)建了端到端調(diào)用鏈監(jiān)控平臺,以實現(xiàn)多維協(xié)同運維,具體包括:
  • 系統(tǒng)監(jiān)控清晰透明:構(gòu)建包含各應(yīng)用模塊上下游調(diào)用依賴關(guān)系(應(yīng)用包括:業(yè)務(wù)應(yīng)用、中間件、數(shù)據(jù)庫等)、應(yīng)用模塊主機網(wǎng)絡(luò)之間相互部署依賴關(guān)系的多維度關(guān)系圖譜監(jiān)控大屏,實現(xiàn)系統(tǒng)從黑盒狀態(tài)到透明狀態(tài)的轉(zhuǎn)變。

  • 故障定位快速智能:基于動態(tài)基線對關(guān)系圖譜中各模塊、節(jié)點進行異常檢測,分析各系統(tǒng)模塊的問題情況,實現(xiàn)故障分鐘級實時發(fā)現(xiàn)。

  • 運維分析立體多維:通過直觀可視化的方式展示應(yīng)用、主機、數(shù)據(jù)庫等異常,方便運維人員多維度、立體式對故障影響面進行評估。

 



建設(shè)實施方案


建設(shè)端到端調(diào)用鏈監(jiān)控平臺,打通各業(yè)務(wù)支撐子系統(tǒng),并依托分布式調(diào)用鏈跟蹤技術(shù)打造跨電渠、CRM、BOSS多個核心子系統(tǒng)的分布式全程調(diào)用鏈路,構(gòu)建立體式多維協(xié)同的故障智能檢測和可視化快速定位能力,解決龐大的分布式系統(tǒng)架構(gòu)下的調(diào)用鏈路難跟蹤、發(fā)生故障或問題較難快速定位和跟蹤的難題。
端到端調(diào)用鏈監(jiān)控平臺架構(gòu)通過適配各應(yīng)用系統(tǒng)的底層框架,實現(xiàn)端到端鏈路數(shù)據(jù)埋點、數(shù)據(jù)生成、數(shù)據(jù)采集,運維指標(biāo)生成、異常檢測及告警。并融合可視化能力、實時計算能力、動態(tài)基線算法能力,在業(yè)務(wù)系統(tǒng)出現(xiàn)問題時,快速通過調(diào)用鏈,結(jié)合可視化,快速呈現(xiàn)系統(tǒng)異常、定位排查。
端到端調(diào)用鏈監(jiān)控平臺架構(gòu)圖
端到端調(diào)用鏈監(jiān)控平臺的多維度可視化監(jiān)控大屏基于采集獲取到的應(yīng)用模塊之間的調(diào)用關(guān)系進行動態(tài)構(gòu)建。包含上下游應(yīng)用或中間件、數(shù)據(jù)組件等模塊調(diào)用關(guān)系,也包括應(yīng)用模塊與主機網(wǎng)絡(luò)之間相互部署依賴關(guān)系。
系統(tǒng)監(jiān)測可視化大屏展示如下:
每個圖標(biāo)代表一個應(yīng)用模塊集群,每個應(yīng)用模塊直接的帶箭頭的連線代表調(diào)用關(guān)系,當(dāng)圖標(biāo)變紅色時代表該模塊出現(xiàn)了異常,可以通過下鉆進一步定位診斷。
系統(tǒng)可視化拓?fù)浯笃?/span>
系統(tǒng)拓?fù)浔O(jiān)控可以通過應(yīng)用集群的縱向下鉆能力,體現(xiàn)從應(yīng)用集群到應(yīng)用實例再到物理節(jié)點的縱深關(guān)系,快速對發(fā)生異常的應(yīng)用集群做下鉆分析,進入到應(yīng)用集群的物理部署層,并將原子狀態(tài)的故障發(fā)生點予以告警展現(xiàn),提示運維人員跟進處理。
圍繞上述“立體式多維協(xié)同的故障檢測和可視化快速定位能力”建設(shè)思路,一方面采用分布式調(diào)用鏈跟蹤技術(shù);另一方面構(gòu)建關(guān)系圖譜模型、多維異常指標(biāo)智能生成、融合基線檢測算法,助力故障檢測和可視化快速定位能力構(gòu)建。

1. 分布式調(diào)用鏈跟蹤

采用分布式調(diào)用鏈跟蹤技術(shù)方案解決跨節(jié)點事務(wù)端到端跟蹤難點,從用戶側(cè)開始的調(diào)用一直追溯到調(diào)用處理完畢回調(diào)結(jié)束,調(diào)用鏈中的每個環(huán)節(jié)都進行統(tǒng)計監(jiān)控,實現(xiàn)分布式事務(wù)全生命周期調(diào)用性能管理,可視化分布式事務(wù)調(diào)用棧。
分布式事務(wù)跟蹤技術(shù)通過在遠程調(diào)用發(fā)送消息時添加應(yīng)用級別的標(biāo)簽作為消息之間的關(guān)聯(lián)。
例如,在HTTP請求中的HTTP header中為消息添加一個標(biāo)簽信息并使用這個標(biāo)簽跟蹤消息。在調(diào)用的header中添加應(yīng)用級別標(biāo)簽數(shù)據(jù)以便在遠程調(diào)用中跟蹤分布式事務(wù)的全鏈路。標(biāo)簽數(shù)據(jù)由多個key組成,定義為TraceId。在標(biāo)簽中加入主機、網(wǎng)絡(luò)IP字段,就能將主機、網(wǎng)絡(luò)IP信息進行收集上報。
消息跟蹤數(shù)據(jù)結(jié)構(gòu)由Span, Trace, 和 TraceId組成。
下圖描述TraceId的行為,在4個節(jié)點之間執(zhí)行了3次的RPC調(diào)用:
調(diào)用鏈跟蹤示例
在上圖中,TransactionId (TxId)作為一條調(diào)用鏈的唯一標(biāo)識ID,全局唯一,體現(xiàn)了三次不同的RPC作為單個事務(wù)被相互關(guān)聯(lián)。通過SpanId 和 ParentSpanId (pSpanId)來標(biāo)識上下游環(huán)節(jié)關(guān)系。
使用TxId,可以發(fā)現(xiàn)關(guān)聯(lián)到n個Span,并使用SpanId和ParentSpanId將這n個span排列為繼承樹結(jié)構(gòu),這樣就實現(xiàn)了調(diào)用鏈路的串聯(lián)。
在這個消息結(jié)構(gòu)體中加入更多的記錄信息:比如業(yè)務(wù)編碼、主機ip、入?yún)⑽谋?、調(diào)用請求返回文本、系統(tǒng)錯誤堆棧文本等,就能獲得非常豐富的調(diào)用鏈信息,能更加方便運維。

2. 鏈路數(shù)據(jù)輸出要求

為了能夠分析出端到端的調(diào)用層次關(guān)系,我們對業(yè)務(wù)系統(tǒng)的鏈路日志數(shù)據(jù)輸出做了以下的規(guī)范要求:
基于業(yè)務(wù)鏈做應(yīng)用拓?fù)湫枨?,和?yīng)用廠商側(cè)協(xié)商確定的業(yè)務(wù)鏈數(shù)據(jù)格式需求規(guī)范,每個環(huán)節(jié)可以吐出其上游的調(diào)用發(fā)起信息,以及當(dāng)前環(huán)節(jié)向下游調(diào)用發(fā)起的信息,每一筆業(yè)務(wù)鏈日志中應(yīng)包含的數(shù)據(jù)信息,包括但不限于以下內(nèi)容:
  • 定義單次業(yè)務(wù)辦理所對應(yīng)的業(yè)務(wù)編碼
    每個業(yè)務(wù)都應(yīng)有業(yè)務(wù)編碼,用于識別該筆業(yè)務(wù)具體是做什么的。
  • 定義單次業(yè)務(wù)辦理的用戶編碼
    定義辦理業(yè)務(wù)的用戶,如手機號碼、用戶編碼、或其他業(yè)務(wù)的辦理對象編碼。
  • 定義單次業(yè)務(wù)辦理的辦理員工編碼
    辦理業(yè)務(wù)的員工編碼,用于業(yè)務(wù)發(fā)展統(tǒng)計分析。
  • 定義單次業(yè)務(wù)辦理的辦理渠道編碼
    辦理業(yè)務(wù)的渠道編碼,用于業(yè)務(wù)發(fā)展統(tǒng)計分析。
  • 定義單次業(yè)務(wù)辦理中單次系統(tǒng)交互的開始時間戳
    業(yè)務(wù)辦理的時間戳信息,用于單位時間內(nèi)的業(yè)務(wù)統(tǒng)計分析,以及實時計算時時間窗口的判斷。
  • 定義串聯(lián)單次業(yè)務(wù)辦理的唯一流水
    每筆業(yè)務(wù)需定義唯一流水,使用這個流水號來串聯(lián)一次業(yè)務(wù)辦理的多次交互動作。
  • 定義串聯(lián)單次業(yè)務(wù)辦理中單次系統(tǒng)交互的唯一流水
    每筆業(yè)務(wù)中一次交互動作的唯一流水,用于串聯(lián)這次交互動作在多個不同應(yīng)用之間的流轉(zhuǎn)調(diào)用。
  • 定義每個應(yīng)用的應(yīng)用節(jié)點編碼
    每個應(yīng)用實例的唯一編碼,用于識別該應(yīng)用實例,當(dāng)系統(tǒng)發(fā)生異常時,應(yīng)用節(jié)點用于判斷系統(tǒng)異常的發(fā)生位置。
  • 定義每個應(yīng)用的應(yīng)用節(jié)點ip和port
    每個應(yīng)用實例的所屬主機ip和當(dāng)前應(yīng)用實例的端口,用于關(guān)聯(lián)主機異常信息做異常影響分析。
  • 定義每個應(yīng)用節(jié)點所屬應(yīng)用集群的應(yīng)用類型
    應(yīng)用集群的類型可用于構(gòu)建拓?fù)鋱D時劃分層級結(jié)構(gòu),繪制清晰的系統(tǒng)架構(gòu)。
  • 定義每個進程所屬應(yīng)用集群的名稱
    應(yīng)用集群名稱用于在構(gòu)建拓?fù)鋱D時展示當(dāng)前應(yīng)用的名稱。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)的服務(wù)類型
    系統(tǒng)交互中的一個環(huán)節(jié)可以是一次函數(shù)調(diào)用、可以是一次接口調(diào)用,還可以是一次數(shù)據(jù)庫訪問。該字段應(yīng)定義一個環(huán)節(jié)的服務(wù)的類型。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)的名稱
    系統(tǒng)交互中的環(huán)節(jié)名稱可以是接口名、函數(shù)名、服務(wù)名等,用于構(gòu)建業(yè)務(wù)鏈時定義該動作。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)的輸入?yún)?shù)
    接口、函數(shù)、服務(wù)的入?yún)⑿畔ⅰ?/span>
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)的輸出
    接口、函數(shù)、服務(wù)的返回信息。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)的耗時
    接口、函數(shù)、服務(wù)、數(shù)據(jù)庫訪問的耗時。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)是否失敗及失敗類型
    用于判斷該環(huán)節(jié)是否失敗,以及劃分失敗的類型,如系統(tǒng)層原因的失敗,或業(yè)務(wù)規(guī)則的失敗等。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)的失敗異常信息
    用于記錄失敗時的異常信息。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)的上級環(huán)節(jié)應(yīng)用名稱(跨應(yīng)用調(diào)用時)
    記錄調(diào)用該環(huán)節(jié)代碼的上級環(huán)節(jié)應(yīng)用名稱。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)的上級環(huán)節(jié)的應(yīng)用節(jié)點編碼(跨應(yīng)用調(diào)用時)
    記錄調(diào)用該環(huán)節(jié)代碼的上級環(huán)節(jié)應(yīng)用節(jié)點編碼。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)的上級環(huán)節(jié)的ip和port(跨應(yīng)用調(diào)用時)
    記錄調(diào)用該環(huán)節(jié)代碼的上級環(huán)節(jié)應(yīng)用節(jié)點ip和port。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)向下調(diào)用的目標(biāo)應(yīng)用名稱(跨應(yīng)用調(diào)用時)
    記錄該環(huán)節(jié)向下游發(fā)起調(diào)用時的目標(biāo)應(yīng)用名稱。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)向下調(diào)用的目標(biāo)地址(跨應(yīng)用調(diào)用時)
    記錄該環(huán)節(jié)向下游發(fā)起調(diào)用時的目標(biāo)應(yīng)用地址。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)向下調(diào)用的目標(biāo)數(shù)據(jù)庫名稱(數(shù)據(jù)庫類調(diào)用時)
    記錄該環(huán)節(jié)向下游發(fā)起調(diào)用時的目標(biāo)數(shù)據(jù)庫名稱。
  • 定義每次系統(tǒng)交互中每個環(huán)節(jié)向下調(diào)用的目標(biāo)數(shù)據(jù)庫地址(數(shù)據(jù)庫類調(diào)用時)
    記錄該環(huán)節(jié)向下游發(fā)起調(diào)用時的目標(biāo)數(shù)據(jù)庫地址。
  • 定義系統(tǒng)交互中入口環(huán)節(jié)的url地址(前臺交互)
    記錄系統(tǒng)交互入口環(huán)節(jié)的url地址。
3. 建立關(guān)聯(lián)圖譜模型

可視化監(jiān)控大屏是基于關(guān)聯(lián)圖譜模型進行自動化繪制和每天更新。
基于每天采集到的端到端鏈路鏈路數(shù)據(jù),構(gòu)建包含各應(yīng)用模塊上下游調(diào)用依賴關(guān)系(包括業(yè)務(wù)應(yīng)用對數(shù)據(jù)組件的訪問)、應(yīng)用模塊主機網(wǎng)絡(luò)之間相互部署依賴關(guān)系。
一次復(fù)雜業(yè)務(wù)的從WEB前臺受理到最后為用戶真正辦理成功,在系統(tǒng)的調(diào)用鏈?zhǔn)且粋€跨多系統(tǒng)模塊,分布式、異步開通的長流程調(diào)用。在沒有端到端跟蹤技術(shù)前,這樣一次調(diào)用鏈路中各模塊之間的交互、調(diào)用依賴是一個黑盒,對系統(tǒng)做健康檢測需要打開這個系統(tǒng)黑盒。在當(dāng)前復(fù)雜的分布式系統(tǒng)的拓?fù)浣Y(jié)構(gòu)中,某次調(diào)用經(jīng)過了哪個應(yīng)用節(jié)點,該節(jié)點目前是調(diào)度部署在哪臺虛擬機上,遠端調(diào)用IP、端口是多少都較難關(guān)聯(lián)。而這些信息恰好是運維分析需要的信息。
使用端到端調(diào)用鏈路跟蹤技術(shù),跟蹤這些模塊之間的每筆調(diào)用流,并使用異步跟蹤技術(shù)把異步調(diào)用還原合并到調(diào)用鏈中,得到完整的調(diào)用鏈路。
完整的調(diào)用鏈路由一個個鏈路環(huán)節(jié)日志組成,每個鏈路環(huán)節(jié)日志包含基礎(chǔ)的鏈路環(huán)節(jié)信息、當(dāng)前環(huán)節(jié)的程序調(diào)用請求參數(shù)和返回報文,兩個鏈路環(huán)節(jié)中間捕獲的應(yīng)用主動輸出的日志(包含程序錯誤堆棧)、主機、網(wǎng)絡(luò)數(shù)據(jù)等。日志中很多數(shù)據(jù)為長文本、半結(jié)構(gòu)化數(shù)據(jù),所以需要先做分詞處理來提取。
在這個實施案例中,我們基于flink實時計算來作為分詞及鏈路上下游依賴關(guān)系發(fā)現(xiàn)模塊的承載平臺,執(zhí)行以下的挖掘處理步驟,來構(gòu)建上下游依賴信息的關(guān)系圖譜自發(fā)現(xiàn)模型。
  • STEP1-明確可用的調(diào)用鏈環(huán)節(jié)數(shù)據(jù):首先梳理、定義鏈路環(huán)節(jié)中和上下游依賴關(guān)系相關(guān)的信息關(guān)鍵字,通過流式處理篩選出滿足關(guān)鍵字預(yù)選規(guī)則的鏈路環(huán)節(jié)日志,認(rèn)為此日志為一個可用的調(diào)用鏈環(huán)節(jié)數(shù)據(jù),將其提取出來。
  • STEP2-挖掘可調(diào)用鏈上下游依賴關(guān)系:從第一步得到的調(diào)用鏈環(huán)節(jié)數(shù)據(jù)中挖掘出此次調(diào)用鏈環(huán)節(jié)屬于哪個調(diào)用鏈,歸屬哪個業(yè)務(wù)調(diào)用,該調(diào)用鏈環(huán)節(jié)目前在哪個應(yīng)用模塊節(jié)點(應(yīng)用模塊節(jié)點包括:業(yè)務(wù)應(yīng)用、redis、memcache、數(shù)據(jù)庫等)上、上級應(yīng)用節(jié)點的信息、下級應(yīng)用節(jié)點信息、執(zhí)行動作信息(接口或函數(shù),或sql語句),做去重后生成為一個該環(huán)節(jié)的上下游依賴關(guān)系鍵。上下游依賴關(guān)系鍵包含了該鏈路環(huán)節(jié)在整個調(diào)用流程的上下游關(guān)系。
  • STEP3-分析其立體式主機網(wǎng)絡(luò)部署關(guān)系:繼續(xù)分析調(diào)用鏈環(huán)節(jié)數(shù)據(jù),挖掘出發(fā)生此次調(diào)用鏈環(huán)節(jié)的應(yīng)用節(jié)點、該應(yīng)用節(jié)點在調(diào)用發(fā)生當(dāng)時部署在哪臺主機、哪個網(wǎng)絡(luò)IP的立體式部署關(guān)系鍵,此關(guān)系鍵命名為應(yīng)用主機網(wǎng)絡(luò)的立體式部署關(guān)系鍵。
  • STEP4-生成上下游依賴運維知識圖譜:以每半天為統(tǒng)計周期,通過分析關(guān)聯(lián)上下游依賴關(guān)系鍵,去重,以每個業(yè)務(wù)編碼為根節(jié)點,自動生成一個完整的基于業(yè)務(wù)的調(diào)用關(guān)系鏈路,得出上下游依賴運維知識圖譜,通過分析關(guān)聯(lián)應(yīng)用主機網(wǎng)絡(luò)的立體式部署關(guān)系鍵,生成出縱向的立體式的運維知識圖譜,構(gòu)建出哪些應(yīng)用模塊部署在哪些物理中心的哪些主機上,相互之間的網(wǎng)絡(luò)調(diào)用IP關(guān)系,以及每臺主機上部署了多少個應(yīng)用實例等信息。
  • 模型更新頻度:每半天做一次動態(tài)更新。
我們在端到端調(diào)用鏈監(jiān)控平臺中還納管了數(shù)據(jù)庫集群的內(nèi)部端到端鏈路管理,實現(xiàn)了數(shù)據(jù)庫的異常監(jiān)測和問題快速診斷能力。對于數(shù)據(jù)庫模塊,多帶帶建立了專門的端到端數(shù)據(jù)庫監(jiān)控大屏,用來呈現(xiàn)其內(nèi)部的數(shù)據(jù)流向及關(guān)鍵組件運行狀態(tài)。
大屏包含數(shù)據(jù)庫節(jié)點、ADG節(jié)點、心跳延時節(jié)點、ADG延時節(jié)點四類節(jié)點、對性能異常、數(shù)據(jù)庫健康度進行異常檢測,大屏展示健康節(jié)點數(shù)及異常節(jié)點數(shù)、展示每套庫對應(yīng)的數(shù)據(jù)量、總節(jié)點數(shù)、健康節(jié)點數(shù)及異常節(jié)點數(shù)。
基于上述大屏及下鉆后的副屏展現(xiàn),能實現(xiàn)對運維知識圖譜的立體化、可視化展現(xiàn),結(jié)合了業(yè)務(wù)、應(yīng)用、網(wǎng)絡(luò)、主機、中間件、數(shù)據(jù)庫等各維度的信息集成展現(xiàn),再結(jié)合異常檢測、健康度模型評分,提供運維人員快速發(fā)現(xiàn)異常,并定位診斷故障的能力。

4. 構(gòu)建檢測指標(biāo)體系

在完成系統(tǒng)架構(gòu)的大屏展現(xiàn)和數(shù)據(jù)庫、物理部署視圖、業(yè)務(wù)流程視圖等各類專題副屏的基礎(chǔ)上,為了第一時間獲得系統(tǒng)運行的實際狀態(tài),需要通過業(yè)務(wù)鏈日志數(shù)據(jù)實時提取各業(yè)務(wù)、應(yīng)用、實例、主機、網(wǎng)絡(luò)等系統(tǒng)組成部分的各類細(xì)項指標(biāo),也需從其他系統(tǒng)進行數(shù)據(jù)采集,用于構(gòu)建算法分析系統(tǒng)運行狀態(tài)的自動異常檢測能力。
因此一套靈活、準(zhǔn)確、高效的數(shù)據(jù)采集、指標(biāo)生成體系是必不可少的。
同樣基于flume、flink開源計算框架搭建了實時指標(biāo)庫。由生產(chǎn)系統(tǒng)生成的調(diào)用鏈數(shù)據(jù)通過分詞處理形成半結(jié)構(gòu)化數(shù)據(jù),再對其中的關(guān)鍵字段做規(guī)則統(tǒng)計、數(shù)值計算等處理形成指標(biāo)數(shù)據(jù),指標(biāo)還可配置告警,并將告警再做復(fù)合指標(biāo)計算,完整處理過程如下圖如所示:
業(yè)務(wù)鏈日志生成指標(biāo)、處理流程示意圖
其中在指標(biāo)生成邏輯上,融合了數(shù)值計算和邏輯判斷兩類規(guī)則體系,如下所示:

通過以上的數(shù)值計算及邏輯計算規(guī)則,對業(yè)務(wù)鏈日志數(shù)據(jù)做處理自由配置生成不同的關(guān)鍵指標(biāo)。

這些指標(biāo)數(shù)據(jù)集成在端到端可視化監(jiān)控大屏中,也被各系統(tǒng)健康度模型所使用。系統(tǒng)出現(xiàn)告警后,運維人員往往需要各類細(xì)項指標(biāo)幫助其進行分析,幫助快速做一些問題診斷,靈活高效的數(shù)據(jù)指標(biāo)生成體系能幫助運維人員快速采集、展現(xiàn)他們關(guān)注的指標(biāo),運維人員可通過這些指標(biāo)快速了解當(dāng)前系統(tǒng)的運行負(fù)載情況,以及各業(yè)務(wù)、應(yīng)用集群、網(wǎng)絡(luò)、數(shù)據(jù)庫等組件的運行狀態(tài)。 



應(yīng)用效果



通過以上模型構(gòu)建出關(guān)聯(lián)圖譜后,并基于該圖譜和指標(biāo)體系實現(xiàn)了對系統(tǒng)各維度(包含應(yīng)用、主機、數(shù)據(jù)庫、中間件、網(wǎng)絡(luò)IP等信息)的異常監(jiān)測和問題快速診斷,并結(jié)合異常檢測、健康度模型評分,提供運維人員快速發(fā)現(xiàn)異常,并定位診斷故障的能力。
同時,通過自動化繪制可視化系統(tǒng)拓?fù)浔O(jiān)控大屏直觀展現(xiàn)系統(tǒng)運行時的各模塊的狀態(tài)。

 

END

 



本文作者:李秋霖

本文來源:IT那活兒(上海新炬王翦團隊)

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/129493.html

相關(guān)文章

  • 何勉:第一性原理和精益敏捷的規(guī)?;?em>實施

    摘要:摘要什么是第一性原理第一性原理如何指導(dǎo)我們的精益敏捷開發(fā)阿里資深解決方案架構(gòu)師暢銷書精益產(chǎn)品開發(fā)原則方法與實施作者何勉,結(jié)合實踐案例,詳述第一性原理和精益敏捷的規(guī)?;瘜嵤?。前言今天分享的題目是第一性原理和精益敏捷的規(guī)模化實施。 摘要: 什么是第一性原理?第一性原理如何指導(dǎo)我們的精益敏捷開發(fā)?阿里資深解決方案架構(gòu)師、暢銷書《精益產(chǎn)品開發(fā):原則、方法與實施》作者何勉,結(jié)合實踐案例,詳述第一...

    233jl 評論0 收藏0
  • 云計算時代的網(wǎng)絡(luò)進階

    摘要:李耀宗強調(diào),要從根本上支持企業(yè)數(shù)字化轉(zhuǎn)型,需要從基礎(chǔ)設(shè)施和應(yīng)用兩個方面提高對復(fù)雜網(wǎng)絡(luò)環(huán)境的管理監(jiān)測能力,增強企業(yè)使用網(wǎng)絡(luò)的安全性復(fù)雜性,從而才能真正消除企業(yè)云優(yōu)先戰(zhàn)略當(dāng)中的盲點和障礙?;ヂ?lián)網(wǎng)改變了傳統(tǒng)PC時代IT架構(gòu)的技術(shù)邏輯,帶來了無限的存儲空間和無窮的計算能力,同時,又借助云計算徹底顛覆了以往商業(yè)模式上的所有鐵律。有89%的企業(yè)計劃采用數(shù)字優(yōu)先的戰(zhàn)略;超過85%的人認(rèn)為,云是數(shù)字化轉(zhuǎn)型的...

    gecko23 評論0 收藏0
  • TOP100summit:【分享實錄-封宇】58到家多端消息整合之路

    摘要:封宇到家架構(gòu)師。主要負(fù)責(zé)到家消息系統(tǒng)以及門戶等公司戰(zhàn)略級產(chǎn)品研發(fā)。消息服務(wù)器收到拉取離線消息請求,表明端已經(jīng)收到之前的數(shù)據(jù)。統(tǒng)一消息推送通道,整合個推米推微信短信等消息推送方式,盡最大可能確保消息送達用戶。 本篇文章內(nèi)容來自2016年TOP100summit 58到家架構(gòu)師封宇的案例分享。編輯:Cynthia2017年11月9-12日北京國家會議中心第六屆TOP100summit,留言...

    googollee 評論0 收藏0
  • 創(chuàng)新賦能,筑基未來 ——“2021中國IPv6創(chuàng)新發(fā)展大會”在京召開

    摘要:為貫徹落實關(guān)于加快推進互聯(lián)網(wǎng)協(xié)議第六版規(guī)模部署和應(yīng)用工作的通知部署要求,促進技術(shù)產(chǎn)業(yè)網(wǎng)絡(luò)應(yīng)用安全協(xié)同發(fā)展,搭建行業(yè)交流合作平臺,年月日日,以創(chuàng)新賦能,筑基未來為主題的中國創(chuàng)新發(fā)展大會在北京舉行。 為貫徹落實《關(guān)于加快推進互聯(lián)網(wǎng)協(xié)議第六版(IPv6)規(guī)模部署和應(yīng)用工作的通知》部署要求,促進I...

    wuyangchun 評論0 收藏0
  • 前端進階之路: 前端架構(gòu)設(shè)計(3) - 測試核心

    摘要:而測試驅(qū)動開發(fā)技術(shù)并不只是單純的測試工作。需求向來就是軟件開發(fā)過程中感覺最不好明確描述易變的東西。這里說的需求不只是指用戶的需求,還包括對代碼 可能很多人和我一樣, 首次聽到前端架構(gòu)這個詞, 第一反應(yīng)是: 前端還有架構(gòu)這一說呢? 在后端開發(fā)領(lǐng)域, 系統(tǒng)規(guī)劃和可擴展性非常關(guān)鍵, 因此架構(gòu)師備受重視, 早在開發(fā)工作啟動之前, 他們就被邀請加入到項目中, 而且他們會跟客戶討論即將建成的平臺的...

    Karuru 評論0 收藏0
  • 前端進階之路: 前端架構(gòu)設(shè)計(3) - 測試核心

    摘要:而測試驅(qū)動開發(fā)技術(shù)并不只是單純的測試工作。需求向來就是軟件開發(fā)過程中感覺最不好明確描述易變的東西。這里說的需求不只是指用戶的需求,還包括對代碼 可能很多人和我一樣, 首次聽到前端架構(gòu)這個詞, 第一反應(yīng)是: 前端還有架構(gòu)這一說呢? 在后端開發(fā)領(lǐng)域, 系統(tǒng)規(guī)劃和可擴展性非常關(guān)鍵, 因此架構(gòu)師備受重視, 早在開發(fā)工作啟動之前, 他們就被邀請加入到項目中, 而且他們會跟客戶討論即將建成的平臺的...

    宋華 評論0 收藏0

發(fā)表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<