工作中,如果機(jī)器cpu idle過(guò)低,會(huì)收到告警
P2
主機(jī)名: set-xr-xxxx監(jiān)控項(xiàng):
all(#5) cpu.idle < 30 當(dāng)前值: 0
排查的步驟如下,
使用top + 大寫P,查看cpu占用過(guò)高的進(jìn)程
這里往往就是后臺(tái)java服務(wù),然后要通過(guò)進(jìn)程來(lái)排查具體的線程,這時(shí)有兩種方法
方法一:
top -H -p [pid] , 這時(shí)可以看到該進(jìn)程下的所有線程,同樣與大寫P結(jié)合可以查看cpu占用過(guò)高的線程
方法二:
ps -mp [pid] -o THREAD,tid,time ,此時(shí)也可以看到該進(jìn)程下的所有線程,其中m代表列出該進(jìn)程下的所有線程,p代表列出線程占用cpu的時(shí)間,o代表格式化輸出
通過(guò)以上兩種方法可以獲取到線程id,以下稱為tid
將tid轉(zhuǎn)為16進(jìn)制,可以使用以下命令 printf "%xn" [tid],得到的16進(jìn)制線程id,我們同樣稱為tid
jstack [pid] | grep tid(16進(jìn)制) -A 60,從輸出中排查公司相關(guān)的代碼內(nèi)容,找到問(wèn)題代碼的行數(shù),進(jìn)行排查
如果是fullgc導(dǎo)致的,可以進(jìn)一步dump jvm內(nèi)存信息進(jìn)行排查
jmap -dump:format=b,file=dump-all.hprof [pid] #dump全量?jī)?nèi)存數(shù)據(jù),[pid]替換為上一步查找的進(jìn)程id
jmap -dump:live,format=b,file=dump.hprof [pid] #再次dump存活對(duì)象內(nèi)存數(shù)據(jù),注意live參數(shù)會(huì)觸發(fā)fullgc,所以本次dump一定要在上一步全量dump之后執(zhí)行。
使用eclipse的工具mat打開,進(jìn)行排查
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/76025.html
摘要:周三晚加上了對(duì)阿波羅超時(shí)的監(jiān)控,周四觀察上線期間阿波羅超時(shí)指標(biāo)的變化,時(shí)間也吻合。月日下午又報(bào)了一次警與此同時(shí)的阿波羅超時(shí)監(jiān)控這里同時(shí)列出機(jī)器指標(biāo)的目的是為了說(shuō)明,盡管沒(méi)有報(bào)警,但機(jī)器的指標(biāo)變化和是統(tǒng)一的。 順風(fēng)車運(yùn)營(yíng)研發(fā)團(tuán)隊(duì) 熊浩含 問(wèn)題現(xiàn)象 線上報(bào)警群里時(shí)而有php-fpm-idle的零星報(bào)警,持續(xù)時(shí)間很短(幾秒甚至一秒),見(jiàn)下圖 showImg(https://segmentf...
摘要:而今,我們就已經(jīng)實(shí)現(xiàn)了這樣的功能使用標(biāo)簽來(lái)實(shí)現(xiàn)數(shù)據(jù)的聚合和分組。數(shù)據(jù)聚合和分組在中,我們實(shí)現(xiàn)了數(shù)據(jù)的聚合和分組。指所需聚合的的查詢條件。所以,與會(huì)聚合為一條曲線,而和的關(guān)系是分組的關(guān)系。 遙想 2015 年 8 月 17 日,Cloud Insight 還在梳理功能原型,暢想 Cloud Insight 存在的意義:為什么阿里云用戶需要使用 Cloud Insight 來(lái)加強(qiáng)管理。 而...
摘要:它的英文全稱是,意為系統(tǒng)活動(dòng)情況報(bào)告。是目前上最為全面的系統(tǒng)性能分析工具之一,通過(guò)該命令可以全面地獲取系統(tǒng)的運(yùn)行隊(duì)列磁盤讀寫分區(qū)交換區(qū)內(nèi)存中斷和網(wǎng)絡(luò)等性能數(shù)據(jù)。因此可以用它來(lái)找出一些性能問(wèn)題,幫助我們提升服務(wù)器的性能做出很好的決策指引。首先我自己都感到不好意思,這個(gè)命令幾乎沒(méi)有用過(guò)(尷尬)。最近在翻查L(zhǎng)inux的一些命令,發(fā)現(xiàn)自己居然對(duì)它很陌生,所以趕緊惡補(bǔ)一下,擴(kuò)充一下自己。sar它的英文...
摘要:大綱我們需要監(jiān)控兩臺(tái)服務(wù)器來(lái)確保它們是正常的,運(yùn)行期間沒(méi)有內(nèi)存和磁盤使用率問(wèn)題。連接,在收到每個(gè)請(qǐng)求服務(wù)器的數(shù)據(jù)后,給每個(gè)對(duì)應(yīng)的服務(wù)器響應(yīng)格式化的數(shù)據(jù)。 注:原文地址 psutil and MongoDB for System Monitoring 這篇入門文章描述了怎樣創(chuàng)建一系列的圖表來(lái)監(jiān)控一臺(tái)或多臺(tái)服務(wù)器的負(fù)載。使用 Python(psutil 和 bottle),Mon...
閱讀 1081·2021-11-25 09:43
閱讀 1441·2021-11-18 10:02
閱讀 1893·2021-11-02 14:41
閱讀 2414·2019-08-30 15:55
閱讀 1097·2019-08-29 16:18
閱讀 2583·2019-08-29 14:15
閱讀 1416·2019-08-26 18:13
閱讀 770·2019-08-26 10:27