成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

ABRTD進(jìn)程引發(fā)ES血案的故事

IT那活兒 / 3548人閱讀
ABRTD進(jìn)程引發(fā)ES血案的故事



故事描述



某通信集團(tuán)割接,數(shù)據(jù)同步驗(yàn)證日志一致性時(shí),連接ES失敗,無法寫入和讀取,es數(shù)據(jù)寫入不了,影響最新日志入es,應(yīng)用割接大部分廠商需要查詢最新的日志,間接影響到了割接進(jìn)度,為了保障業(yè)務(wù)恢復(fù),秉承先搶通后搶修原則,在上級(jí)領(lǐng)導(dǎo)及業(yè)務(wù)廠商溝通下,立即啟用應(yīng)急處理措施,進(jìn)行切換至災(zāi)備ES,切換后索引讀寫正常,通知廠商恢復(fù)業(yè)務(wù)。



故事發(fā)生過程



晚上吃完飯,和同事一起趕現(xiàn)場(chǎng)做好支撐準(zhǔn)備,我們說,今天割接非常順利,沒什么異常,早點(diǎn)回去休息,正要回去的時(shí)候, 突然有個(gè)業(yè)務(wù)系統(tǒng)說,查詢?nèi)罩井惓#覀凂R上查詢一下手機(jī)短信,未發(fā)現(xiàn)什么異常短信,是否是業(yè)務(wù)誤報(bào),不管了,以‘飛奔‘的速度跑回現(xiàn)場(chǎng),所有領(lǐng)導(dǎo)已在現(xiàn)場(chǎng),下面我們就展開了一系列分析。
我們這套ES是6主機(jī)24節(jié)點(diǎn)的集群,專門提供業(yè)務(wù)日志寫入,打開kibana看所有集群節(jié)點(diǎn)也都正常,看狀態(tài)也是Green 。
但是集群寫入失敗,肯定存在問題,于是看看節(jié)點(diǎn)情況,結(jié)果節(jié)點(diǎn)的索引信息獲取失敗,ES集群命令已經(jīng)查不到ES集群節(jié)點(diǎn)信息及索引信息,此時(shí)需通過日志來分析為什么會(huì)如此。
分析ES集群日志,發(fā)現(xiàn)日志中最早的報(bào)錯(cuò)信息發(fā)生在5點(diǎn)33分39秒左右,報(bào)錯(cuò)信息為連接超時(shí)導(dǎo)致無法獲取集群和索引信息,并且其它節(jié)點(diǎn)也有超時(shí)現(xiàn)象
存在ES節(jié)點(diǎn)超時(shí),就會(huì)觸發(fā)ES集群索引分片重新路由分配,分片移動(dòng)到其它節(jié)點(diǎn)導(dǎo)致磁盤占比上升,引發(fā)es集群自動(dòng)觸發(fā)提高磁盤水位,過高的IO和負(fù)載使整個(gè)集群Hang住,
此時(shí)ES級(jí)別分析完成,是185節(jié)點(diǎn)與集群通信失敗超時(shí),處于假死狀態(tài),而為什么185節(jié)點(diǎn)會(huì)這樣,我們進(jìn)一步對(duì)操作系統(tǒng)進(jìn)行分析,通過自動(dòng)化運(yùn)維平臺(tái),發(fā)現(xiàn)6臺(tái)主機(jī),有其中一個(gè)主機(jī)的負(fù)載故障前非常高,于是對(duì)操作日志進(jìn)行分析, 檢查操作系統(tǒng)messages信息,發(fā)現(xiàn)185存在系統(tǒng)守護(hù)進(jìn)程abrtd異常導(dǎo)致連接數(shù)過多及主機(jī)hang現(xiàn)象 ,息abrtd: Too many clients, refusing connections to /var/run/abrt/abrt.socketAug 21 05:33:37 hnes09 kernel: INFO: task java:21133 blocked for more than 120 seconds.Aug 21 05:33:37 hnes09 kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
我們通過日志發(fā)現(xiàn)引發(fā)這臺(tái)主機(jī)的‘罪魁禍?zhǔn)住莂brtd進(jìn)程引起,而該進(jìn)程是在操作系統(tǒng)BUG或異常情況會(huì)觸發(fā),由于是開源的centos未有相應(yīng)dump生成,只能先重啟主機(jī)解決。
重啟主機(jī)并重啟ES集群 ,查看 es日志顯示集群狀態(tài)正常,集群包含的6臺(tái)主機(jī)共24個(gè)節(jié)點(diǎn)正常加入集群,集群恢復(fù)正常,kibana訪問正常。為了防止后續(xù)重蹈覆轍,在其它的未發(fā)生故障的主機(jī)進(jìn)行梳理,并停止abrtd進(jìn)程服務(wù),至此整個(gè)事件告一段落。



故事發(fā)生引發(fā)的思考



在我們未來的運(yùn)維場(chǎng)景越來越復(fù)雜的情況下,開源組件會(huì)越來越多,業(yè)務(wù)使用開源的場(chǎng)景也會(huì)增多,單純的技術(shù)深度已無法滿足未來的需求,我們應(yīng)該從架構(gòu)設(shè)計(jì)出發(fā),在出現(xiàn)問題的時(shí)候架構(gòu)上做冗余,秉承‘業(yè)務(wù)優(yōu)先,先搶通后搶修’的原則,在日常運(yùn)維中使用平臺(tái)工具代替手工勞作。真正意義實(shí)現(xiàn)’故障來了我不背鍋’。


END


更多精彩干貨分享

點(diǎn)擊下方名片關(guān)注

IT那活兒

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/129788.html

相關(guān)文章

  • 增量部署class文件引發(fā)血案

    摘要:背景項(xiàng)目中通過遠(yuǎn)程調(diào)用服務(wù)框架調(diào)用了許多其它的服務(wù)其中有一個(gè)服務(wù)需要升級(jí)其升級(jí)不是版本上的升級(jí)而是整個(gè)服務(wù)重新取了一個(gè)名字使用的也是全新的包但是調(diào)用的方法沒有改變因此在升級(jí)時(shí)只是在調(diào)用服務(wù)類中修改了調(diào)用地址和調(diào)用返回實(shí)體由改為該中返回該調(diào)用 背景 項(xiàng)目中通過遠(yuǎn)程調(diào)用服務(wù)框架調(diào)用了許多其它的服務(wù),其中有一個(gè)服務(wù)wx/subscribe/contract/CircleService 需要升...

    lolomaco 評(píng)論0 收藏0
  • 記一次Content-Length引發(fā)血案

    摘要:除非使用了分塊編碼,否則首部就是帶有實(shí)體主體的報(bào)文必須使用的。 背景 新項(xiàng)目上線, 發(fā)現(xiàn)一個(gè)奇怪的BUG, 請(qǐng)求接口有很小的概率返回400 Bad Request,拿到日志記錄的請(qǐng)求的參數(shù)于POSTMAN中測(cè)試請(qǐng)求接口, 發(fā)現(xiàn)能夠正常響應(yīng). 排查過程 首先服務(wù)器能夠正常響應(yīng)400 Bad Request, 排除接口故障問題. 對(duì)比日志過程中發(fā)現(xiàn) { hello:world ...

    thekingisalwaysluc 評(píng)論0 收藏0
  • 一道JS面試題引發(fā)血案

    摘要:項(xiàng)目組長給我看了一道面試別人的面試題。打鐵趁熱,再來一道題來加深下理解。作者以樂之名本文原創(chuàng),有不當(dāng)?shù)牡胤綒g迎指出。 showImg(https://segmentfault.com/img/bVbur0z?w=600&h=400); 剛?cè)肼毿鹿?,屬于公司萌新一枚,一天下午?duì)著屏幕看代碼架構(gòu)時(shí)。BI項(xiàng)目組長給我看了一道面試別人的JS面試題。 雖然答對(duì)了,但把理由說錯(cuò)了,照樣不及格。 ...

    fantix 評(píng)論0 收藏0
  • 一個(gè)由“大頭兒子帶小頭兒子吃飯”引發(fā)血案

    摘要:在群里討論,然后得出了這幾種寫法,感覺是層層遞進(jìn),想了想,最后選擇發(fā)布成文章大頭兒子小頭爸爸叫去吃飯大頭兒子小頭爸爸叫去吃飯大頭兒子小頭爸爸叫去吃飯吃完了背小頭兒子回去正在牽著的手正在吃給所有對(duì)象擴(kuò)展一個(gè)繼承的方法繼承爸爸要繼承人的功能正在 在群里討論JavaScript,然后得出了這幾種寫法,感覺是層層遞進(jìn),想了想,最后選擇發(fā)布成文章 ({ baby : 大頭兒子, ...

    forrest23 評(píng)論0 收藏0
  • 空數(shù)組返回true引發(fā)血案

    摘要:但是在這個(gè)判斷的情況下,則會(huì)很神奇的發(fā)現(xiàn)打印出來了,說明此時(shí)為,為什么呢因?yàn)檫@里執(zhí)行了一個(gè)對(duì)象到布爾值的轉(zhuǎn)換故返回。 ????之前做項(xiàng)目的時(shí)候,總會(huì)處理各式各樣的數(shù)據(jù),來進(jìn)行繪圖。但是當(dāng)后臺(tái)返回一個(gè)空數(shù)組的時(shí)候,頁面中并不會(huì)顯示沒有數(shù)據(jù)的圖。代碼如下: var arr = [] if(arr){console.log(124)}else{console.log(無數(shù)據(jù))} 我明明判斷了...

    piglei 評(píng)論0 收藏0
  • 在PHP應(yīng)用程序開發(fā)中不正當(dāng)使用mail()函數(shù)引發(fā)血案

    摘要:在我們向廠商提交漏洞,發(fā)布了相關(guān)的漏洞分析文章后,由于內(nèi)聯(lián)函數(shù)導(dǎo)致的類似安全問題在其他的應(yīng)用程序中陸續(xù)曝出。淺析的函數(shù)自帶了一個(gè)內(nèi)聯(lián)函數(shù)用于在應(yīng)用程序中發(fā)送電子郵件。 前言 在我們 挖掘PHP應(yīng)用程序漏洞 的過程中,我們向著名的Webmail服務(wù)提供商 Roundcube 提交了一個(gè)遠(yuǎn)程命令執(zhí)行漏洞( CVE-2016-9920 )。該漏洞允許攻擊者通過利用Roundcube接口發(fā)送一...

    Galence 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<