乍一看紅的不少挺嚇人,但仔細(xì)查看會(huì)發(fā)現(xiàn),其實(shí)所有的報(bào)錯(cuò)都指向同一處,node11節(jié)點(diǎn)。嘗試登錄無(wú)果,ping對(duì)應(yīng)IP無(wú)反應(yīng)。
這種情況下,基本斷定node11服務(wù)器異常宕掉了。本著老鳥(niǎo)的敏覺(jué)性,檢查hdfs可用性及數(shù)據(jù)塊,不過(guò)也不用過(guò)分擔(dān)心,畢竟咱是大數(shù)據(jù)平臺(tái),掛一臺(tái)服務(wù)器不影響整體可用性。檢查確認(rèn)所有hdfs數(shù)據(jù)塊顯示均為健康狀態(tài),也意味著后臺(tái)數(shù)據(jù)并未受到任何影響,管理節(jié)點(diǎn)也已從node11節(jié)點(diǎn)成功漂移。
雖說(shuō)只是測(cè)試環(huán)境,但畢竟是機(jī)器掛掉了,本著閉環(huán)服務(wù)思維,還是需要快速恢復(fù)的。說(shuō)時(shí)遲,那時(shí)快,那時(shí)不如這時(shí)快,迅速掏出手機(jī)聯(lián)系主機(jī)側(cè)重啟服務(wù)器。服務(wù)器起來(lái)后迅速登錄,習(xí)慣性df一把,發(fā)現(xiàn)根目錄使用率100%。檢查使用詳情,發(fā)現(xiàn)某個(gè)測(cè)試應(yīng)用程序跑飛了,又沒(méi)人看(測(cè)試環(huán)境都是這命?。Y(jié)果打了幾百G的日志。二話不說(shuō)直接聯(lián)系應(yīng)用側(cè)詢問(wèn)是否可以直接清理,得到確認(rèn)后,予以清理。
問(wèn)題定位解決,雖然是大數(shù)據(jù)平臺(tái),但是宕掉的機(jī)器服務(wù)還是需要恢復(fù)的,不然禁不起再垮一輪。恢復(fù)node11各個(gè)服務(wù)后,平臺(tái)恢復(fù)正常。但只是眨了一下眼,journalnode的綠色一閃而過(guò),過(guò)后還是紅色依舊。
快速登錄服務(wù)器檢查journalnode日志,發(fā)現(xiàn)node11的journalnode服務(wù)有問(wèn)題,一直在報(bào)錯(cuò)檢測(cè)到valid length,進(jìn)入journalnode的數(shù)據(jù)目錄,查看journalnode的edits時(shí)間,發(fā)現(xiàn)最新的并不是當(dāng)前時(shí)間,與另外兩個(gè)journalnode時(shí)間不一致,且一直不刷新。
綜前分析,此前的根目錄滿導(dǎo)致node11節(jié)點(diǎn)最新的edits文件已經(jīng)無(wú)法正常寫入,進(jìn)而導(dǎo)致journalnode服務(wù)重啟,journalnode服務(wù)重啟后無(wú)法與另外的journalnode正常同步。
好在我們的journalnode有少數(shù)服從多數(shù)機(jī)制,停止有問(wèn)題的node11節(jié)點(diǎn)的journalnode服務(wù),直接mv掉node11節(jié)點(diǎn)的所有edits文件(注意只移走edits開(kāi)頭文件,VERSION等其他信息需要保留,這可是身份信息,處理不當(dāng)會(huì)導(dǎo)致同步edits失?。缓笤俅螁?dòng)journalnode服務(wù),發(fā)現(xiàn)node11已經(jīng)可以與其他兩個(gè)節(jié)點(diǎn)正常同步了。
本次的故障解決完成,后續(xù)會(huì)繼續(xù)給大家?guī)?lái)關(guān)于大數(shù)據(jù)平臺(tái)用到的相關(guān)組件的運(yùn)維分享,敬請(qǐng)期待。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/130223.html
摘要:大數(shù)據(jù)框架服務(wù)角色介紹翻了一下最近一段時(shí)間寫的分享,發(fā)行版本下載安裝運(yùn)行環(huán)境部署等相關(guān)內(nèi)容幾乎都已經(jīng)寫了一遍了。這些數(shù)據(jù)通常是由于吞吐量的要求而通過(guò)處理日志和日志聚合來(lái)解決。 大數(shù)據(jù)框架hadoop服務(wù)角色介紹翻了一下最近一段時(shí)間寫的分享,DKHadoop發(fā)行版本下載、安裝、運(yùn)行環(huán)境部署等相關(guān)內(nèi)容幾乎都已經(jīng)寫了一遍了。雖然有的地方可能寫的不是很詳細(xì),個(gè)人理解水平有限還請(qǐng)見(jiàn)諒吧!我記得在...
閱讀 1356·2023-01-11 13:20
閱讀 1707·2023-01-11 13:20
閱讀 1215·2023-01-11 13:20
閱讀 1906·2023-01-11 13:20
閱讀 4165·2023-01-11 13:20
閱讀 2757·2023-01-11 13:20
閱讀 1402·2023-01-11 13:20
閱讀 3671·2023-01-11 13:20