近期某省渠道應(yīng)用的簽到送流量業(yè)務(wù)出現(xiàn)了嚴(yán)重的業(yè)務(wù)超時(shí)情況,與此同時(shí)該渠道Tuxedo中間件的維護(hù)人員在該活動(dòng)的業(yè)務(wù)高峰期,也接收到了大量涉及業(yè)務(wù)辦理服務(wù)的積壓告警短信。
通過對(duì)積壓的Tuxedo服務(wù)執(zhí)行效率進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)該服務(wù)在業(yè)務(wù)高峰期時(shí)單筆調(diào)用的服務(wù)執(zhí)行總耗時(shí)已經(jīng)達(dá)到13.4732s。
中間件維護(hù)人員在對(duì)該服務(wù)進(jìn)行實(shí)時(shí)truss過程中,未發(fā)現(xiàn)明顯的執(zhí)行過程等待現(xiàn)象,但經(jīng)過對(duì)該服務(wù)單筆調(diào)用記錄的數(shù)據(jù)進(jìn)行分析和統(tǒng)計(jì)后,發(fā)現(xiàn)在一次調(diào)用過程中,該服務(wù)對(duì)數(shù)據(jù)庫讀、寫的次數(shù)累計(jì)已經(jīng)超過了14000次。
同時(shí)在truss過程中,我們發(fā)現(xiàn)每次的read5,write5對(duì)象分別為讀、寫CRM庫。
于是馬上接入CRM庫進(jìn)行分析,跟蹤積壓服務(wù)在數(shù)據(jù)庫執(zhí)行情況。通過剖析主要發(fā)現(xiàn)該服務(wù)發(fā)起的session存在大量的librarycache: mutex X爭(zhēng)用,且都在特定的sql上(sql_id:afqzw543rcu2d)。
另外該sql在30min內(nèi)累計(jì)執(zhí)行3.8kw次,與此同時(shí)主機(jī)Runq隊(duì)列高居不下,Cpu資源耗盡。
通過剖析該sql,發(fā)現(xiàn)該sql主要是利用dual表進(jìn)行date轉(zhuǎn)換。
由此可發(fā)現(xiàn),本次服務(wù)積壓主要與此sql有關(guān),但該服務(wù)模塊上線較早,且近期沒有新的變更,那么此次的問題是否和sql調(diào)用量增加有關(guān)系?
帶著此疑問,我們對(duì)此sql的調(diào)用量做了對(duì)比分析。
分析發(fā)現(xiàn)2月11日6點(diǎn)到9點(diǎn)30分總執(zhí)行次數(shù)只有5000萬次左右,3月20日6點(diǎn)到9點(diǎn)30分總共執(zhí)行了1.1億次,3月27日,6點(diǎn)到9點(diǎn)30分,總共執(zhí)行了4.01億次,差不多增長(zhǎng)了4倍。所以從數(shù)據(jù)上分析,該SQL的執(zhí)行次數(shù)是一個(gè)不斷增長(zhǎng)的趨勢(shì);
同時(shí)發(fā)現(xiàn),隨著問題sql執(zhí)行次數(shù)的增加,librarycache: mutex X等待次數(shù)也跟著同比增加,進(jìn)而使得主機(jī)Runq隊(duì)列劇增,Cpu資源耗盡。
那么要解決該問題,就要控制該sql執(zhí)行頻率。通過同應(yīng)用側(cè)溝通,最終通過修改業(yè)務(wù)邏輯,在數(shù)據(jù)庫中屏蔽該sql。
優(yōu)化后對(duì)服務(wù)調(diào)用量及平均響應(yīng)時(shí)長(zhǎng)進(jìn)行了監(jiān)控和數(shù)據(jù)搜集。
對(duì)比發(fā)現(xiàn),優(yōu)化后服務(wù)執(zhí)行效率提升顯著,且穩(wěn)定,無服務(wù)隊(duì)列積壓情況出現(xiàn)。下圖為上線前后服務(wù)執(zhí)行效率對(duì)比曲線圖:
此案例中我們發(fā)現(xiàn)在應(yīng)用代碼中使用selectxxx from dual, 該SQL雖然簡(jiǎn)單,且單次執(zhí)行性能優(yōu)良,但如高頻率的執(zhí)行,則會(huì)有資源高消耗的隱患。
因此建議避免在數(shù)據(jù)庫內(nèi)部進(jìn)行與數(shù)據(jù)庫無關(guān)的處理;且日期以及字符串等相關(guān)處理各種程序語言(C、Java)都提供了豐富的函數(shù)庫可使用,本地化處理不僅可以避免與數(shù)據(jù)庫的交互,更可以降低數(shù)據(jù)庫的負(fù)載,提高服務(wù)性能。
獨(dú)坐思往昔,愁絕淚盈襟。下回見。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/130209.html
摘要:報(bào)警阻塞,發(fā)送效率低下這種情況下,報(bào)警是根據(jù)用戶一個(gè)個(gè)用戶發(fā)送。效果極大的簡(jiǎn)化了報(bào)警配置,僅配置了兩個(gè)。發(fā)送效率提高,對(duì)于一個(gè)報(bào)警,無論發(fā)送人數(shù)多少,都只需要觸發(fā)執(zhí)行一次腳本。 通常zabbix告警主要可以通過三種方式 1. 自帶的直接調(diào)用消息接口服務(wù) 2. 執(zhí)行自定義腳本發(fā)送消息 3. 通過send remote commend 的方式通過執(zhí)行腳本發(fā)送 2和3的本質(zhì)都只通過zabb...
摘要:如何有效處理緊急事件驅(qū)動(dòng)的工作,成為特別是運(yùn)維主管運(yùn)維工作的關(guān)鍵。通知到位和及時(shí)響應(yīng)。機(jī)器學(xué)習(xí)領(lǐng)域是未來的重要發(fā)展方向,目前我們還在摸索中。機(jī)器學(xué)習(xí)告警合并事件單的處理如果告警量很大,告警后續(xù)處理和跟蹤往往會(huì)依賴于外部團(tuán)隊(duì)部門外或公司外。 編者按]本文作者為陳伯龍,云告警平臺(tái)[OneAlert創(chuàng)始人,著《云計(jì)算與OpenStack》,在IT運(yùn)營(yíng)管理、云計(jì)算方面從業(yè)10多年。 正文 互聯(lián)...
摘要:如何有效處理緊急事件驅(qū)動(dòng)的工作,成為特別是運(yùn)維主管運(yùn)維工作的關(guān)鍵。通知到位和及時(shí)響應(yīng)。機(jī)器學(xué)習(xí)領(lǐng)域是未來的重要發(fā)展方向,目前我們還在摸索中。機(jī)器學(xué)習(xí)告警合并事件單的處理如果告警量很大,告警后續(xù)處理和跟蹤往往會(huì)依賴于外部團(tuán)隊(duì)部門外或公司外。 編者按]本文作者為陳伯龍,云告警平臺(tái)[OneAlert創(chuàng)始人,著《云計(jì)算與OpenStack》,在IT運(yùn)營(yíng)管理、云計(jì)算方面從業(yè)10多年。 正文 互聯(lián)...
摘要:在軟件測(cè)試活動(dòng)中,作為一名測(cè)試人員有沒有遇到過這樣的場(chǎng)景,在測(cè)試一個(gè)特性或者制定一份測(cè)試方案時(shí),往往會(huì)想著進(jìn)行簡(jiǎn)單測(cè)試做簡(jiǎn)單設(shè)計(jì),認(rèn)為這個(gè)場(chǎng)景出現(xiàn)的概率太低,幾乎不可能會(huì)存在,不測(cè)了實(shí)際應(yīng)用時(shí)不可能會(huì)有這么大的用戶量, ...
閱讀 1356·2023-01-11 13:20
閱讀 1707·2023-01-11 13:20
閱讀 1215·2023-01-11 13:20
閱讀 1906·2023-01-11 13:20
閱讀 4165·2023-01-11 13:20
閱讀 2757·2023-01-11 13:20
閱讀 1402·2023-01-11 13:20
閱讀 3671·2023-01-11 13:20