成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

ABRTD進程引發(fā)ES血案的故事

IT那活兒 / 1642人閱讀
ABRTD進程引發(fā)ES血案的故事
點擊上方“IT那活兒”公眾號,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了!?。?/strong>

故障背景

某集團割接,數(shù)據(jù)同步驗證日志一致性時,連接ES失敗,無法寫入和讀取,es數(shù)據(jù)寫入不了,影響最新日志入es,應用割接大部分廠商需要查詢最新的日志,間接影響到了割接進度,為了保障業(yè)務恢復,秉承先搶通后搶修原則,在上級領(lǐng)導及業(yè)務廠商溝通下,立即啟用應急處理措施,進行切換至災備ES,切換后索引讀寫正常,通知廠商恢復業(yè)務。


故事發(fā)生過程

晚上吃完飯,和同事一起趕現(xiàn)場做好支撐準備,我們說,今天割接非常順利,沒什么異常,早點回去休息,正要回去的時候, 突然有個業(yè)務系統(tǒng)說,查詢?nèi)罩井惓#覀凂R上查詢一下手機短信,未發(fā)現(xiàn)什么異常短信,是否是業(yè)務誤報,不管了,以‘飛奔‘的速度跑回現(xiàn)場,所有領(lǐng)導已在現(xiàn)場,下面我們就展開了一系列分析。
我們這套ES是6主機24節(jié)點的集群,專門提供業(yè)務日志寫入,打開kibana看所有集群節(jié)點也都正常,看狀態(tài)也是Green 。
但是集群寫入失敗,肯定存在問題,于是看看節(jié)點情況,結(jié)果節(jié)點的索引信息獲取失敗,ES集群命令已經(jīng)查不到ES集群節(jié)點信息及索引信息,此時需通過日志來分析為什么會如此。
分析ES集群日志,發(fā)現(xiàn)日志中最早的報錯信息發(fā)生在5點33分39秒左右,報錯信息為連接超時導致無法獲取集群和索引信息,并且其它節(jié)點也有超時現(xiàn)象。
存在ES節(jié)點超時,就會觸發(fā)ES集群索引分片重新路由分配,分片移動到其它節(jié)點導致磁盤占比上升,引發(fā)es集群自動觸發(fā)提高磁盤水位,過高的IO和負載使整個集群Hang住,
此時ES級別分析完成,是185節(jié)點與集群通信失敗超時,處于假死狀態(tài),而為什么185節(jié)點會這樣,我們進一步對操作系統(tǒng)進行分析,通過自動化運維平臺,發(fā)現(xiàn)6臺主機,有其中一個主機的負載故障前非常高,于是對操作日志進行分析, 檢查操作系統(tǒng)messages信息,發(fā)現(xiàn)185存在系統(tǒng)守護進程abrtd異常導致連接數(shù)過多及主機hang現(xiàn)象:
abrtd: Too many clients, refusing connections to 
/var/run/abrt/abrt.socketAug 21 05:33:37 hnes09 kernel: 
INFO: task java:21133 blocked for more than 120 seconds.Aug
21 05:33:37 hnes09 kernel: "echo 0 >
/proc/sys/kernel/hung_task_timeout_secs" disables this message.
我們通過日志發(fā)現(xiàn)引發(fā)這臺主機的‘罪魁禍首’是abrtd進程引起,而該進程是在操作系統(tǒng)BUG或異常情況會觸發(fā),由于是開源的centos未有相應dump生成,只能先重啟主機解決。

重啟主機并重啟ES集群 ,查看 es日志顯示集群狀態(tài)正常,集群包含的6臺主機共24個節(jié)點正常加入集群,集群恢復正常,kibana訪問正常。

為了防止后續(xù)重蹈覆轍,在其它的未發(fā)生故障的主機進行梳理,并停止abrtd進程服務,至此整個事件告一段落。

故事發(fā)生引發(fā)的思考:

在我們未來的運維場景越來越復雜的情況下,開源組件會越來越多,業(yè)務使用開源的場景也會增多,單純的技術(shù)深度已無法滿足未來的需求,我們應該從架構(gòu)設計出發(fā),在出現(xiàn)問題的時候架構(gòu)上做冗余,秉承‘業(yè)務優(yōu)先,先搶通后搶修’的原則,在日常運維中使用平臺工具代替手工勞作。真正意義實現(xiàn)’故障來了我不背鍋’。

文章首發(fā)于2021年9月15日




本文作者:唐田壽(上海新炬王翦團隊)

本文來源:“IT那活兒”公眾號

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/129232.html

相關(guān)文章

  • 增量部署class文件引發(fā)血案

    摘要:背景項目中通過遠程調(diào)用服務框架調(diào)用了許多其它的服務其中有一個服務需要升級其升級不是版本上的升級而是整個服務重新取了一個名字使用的也是全新的包但是調(diào)用的方法沒有改變因此在升級時只是在調(diào)用服務類中修改了調(diào)用地址和調(diào)用返回實體由改為該中返回該調(diào)用 背景 項目中通過遠程調(diào)用服務框架調(diào)用了許多其它的服務,其中有一個服務wx/subscribe/contract/CircleService 需要升...

    lolomaco 評論0 收藏0
  • 記一次Content-Length引發(fā)血案

    摘要:除非使用了分塊編碼,否則首部就是帶有實體主體的報文必須使用的。 背景 新項目上線, 發(fā)現(xiàn)一個奇怪的BUG, 請求接口有很小的概率返回400 Bad Request,拿到日志記錄的請求的參數(shù)于POSTMAN中測試請求接口, 發(fā)現(xiàn)能夠正常響應. 排查過程 首先服務器能夠正常響應400 Bad Request, 排除接口故障問題. 對比日志過程中發(fā)現(xiàn) { hello:world ...

    thekingisalwaysluc 評論0 收藏0
  • 一道JS面試題引發(fā)血案

    摘要:項目組長給我看了一道面試別人的面試題。打鐵趁熱,再來一道題來加深下理解。作者以樂之名本文原創(chuàng),有不當?shù)牡胤綒g迎指出。 showImg(https://segmentfault.com/img/bVbur0z?w=600&h=400); 剛?cè)肼毿鹿?,屬于公司萌新一枚,一天下午對著屏幕看代碼架構(gòu)時。BI項目組長給我看了一道面試別人的JS面試題。 雖然答對了,但把理由說錯了,照樣不及格。 ...

    fantix 評論0 收藏0
  • 一個由“大頭兒子帶小頭兒子吃飯”引發(fā)血案

    摘要:在群里討論,然后得出了這幾種寫法,感覺是層層遞進,想了想,最后選擇發(fā)布成文章大頭兒子小頭爸爸叫去吃飯大頭兒子小頭爸爸叫去吃飯大頭兒子小頭爸爸叫去吃飯吃完了背小頭兒子回去正在牽著的手正在吃給所有對象擴展一個繼承的方法繼承爸爸要繼承人的功能正在 在群里討論JavaScript,然后得出了這幾種寫法,感覺是層層遞進,想了想,最后選擇發(fā)布成文章 ({ baby : 大頭兒子, ...

    forrest23 評論0 收藏0
  • 空數(shù)組返回true引發(fā)血案

    摘要:但是在這個判斷的情況下,則會很神奇的發(fā)現(xiàn)打印出來了,說明此時為,為什么呢因為這里執(zhí)行了一個對象到布爾值的轉(zhuǎn)換故返回。 ????之前做項目的時候,總會處理各式各樣的數(shù)據(jù),來進行繪圖。但是當后臺返回一個空數(shù)組的時候,頁面中并不會顯示沒有數(shù)據(jù)的圖。代碼如下: var arr = [] if(arr){console.log(124)}else{console.log(無數(shù)據(jù))} 我明明判斷了...

    piglei 評論0 收藏0
  • 在PHP應用程序開發(fā)中不正當使用mail()函數(shù)引發(fā)血案

    摘要:在我們向廠商提交漏洞,發(fā)布了相關(guān)的漏洞分析文章后,由于內(nèi)聯(lián)函數(shù)導致的類似安全問題在其他的應用程序中陸續(xù)曝出。淺析的函數(shù)自帶了一個內(nèi)聯(lián)函數(shù)用于在應用程序中發(fā)送電子郵件。 前言 在我們 挖掘PHP應用程序漏洞 的過程中,我們向著名的Webmail服務提供商 Roundcube 提交了一個遠程命令執(zhí)行漏洞( CVE-2016-9920 )。該漏洞允許攻擊者通過利用Roundcube接口發(fā)送一...

    Galence 評論0 收藏0

發(fā)表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<