當(dāng)數(shù)據(jù)庫出現(xiàn)故障時,營業(yè)系統(tǒng)需要配合進行切換及重啟恢復(fù)操作。而手動停止、啟動、重啟業(yè)務(wù)應(yīng)用容器、進程等操作比較繁瑣效率低,原來需要多人同時花費大量時間完成的事情使用該場景功能現(xiàn)在只用一個人就能解決,把大量重復(fù)性工作并發(fā)執(zhí)行減少工作量、人為誤操作等并提升整體工作效率。
場景流程
操作步驟
場景一:單節(jié)點故障/恢復(fù),分為四個步驟。
select t.restarting_status, count(*)
from shsnc.process_yy_fwkt t
group by t.restarting_status
selectt.restarting_status, count(*)
fromshsnc.process_yy_fwkt t
group by t.restarting_status;
解決方案:直接修改pod的yaml的部署文件,apply滾動更新。
后續(xù)優(yōu)化
目前整個場景流程中重啟容器、進程操作沒有檢查項是否重啟完成,檢查操作已在開發(fā)中。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/129346.html
此文已由作者王盼授權(quán)網(wǎng)易云社區(qū)發(fā)布。 歡迎訪問網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運營經(jīng)驗~ 現(xiàn)狀計算節(jié)點發(fā)生磁盤損壞等數(shù)據(jù)無法恢復(fù)的異常時,節(jié)點上的云主機系統(tǒng)盤無法恢復(fù),導(dǎo)致云主機只能被清理重建 計算節(jié)點宕機但磁盤數(shù)據(jù)可用時,重啟即可恢復(fù)所有云主機的運行 計算節(jié)點多次宕機(或一段時間內(nèi)頻繁宕機),則需要遷移所有云主機或者直接清理重建,云硬盤需要遷移到其他cinder-volume存儲服務(wù)節(jié)點 一般來...
摘要:以下這個名單恐怕是這些公司不想看到的的年前大云故障。微軟稱這次中斷是由外部網(wǎng)絡(luò)故障所導(dǎo)致,部分用戶受影響長達個小時。微軟表示這次中斷與故障無關(guān)。微軟最終確定人為錯誤是罪魁禍?zhǔn)住?本杰明?富蘭克林曾經(jīng)說過,這個世界上有兩件事情不可避免,死亡和納稅。但如果這位偉大的政治家和發(fā)明家活在我們的現(xiàn)代世界,也許服務(wù)器停機也會進入這個名單。不管底層技術(shù)再怎么好,也不管托管提供商再多么能干,云總是會發(fā)生故障...
摘要:周四聲稱,輸錯命令導(dǎo)致了亞馬遜網(wǎng)絡(luò)服務(wù)出現(xiàn)持續(xù)數(shù)小時的故障事件。太平洋標(biāo)準(zhǔn)時上午,一名獲得授權(quán)的團隊成員使用事先編寫的,執(zhí)行一條命令,該命令旨在為計費流程使用的其中一個子系統(tǒng)刪除少量服務(wù)器。 AWS解釋了其廣大US-EAST-1地理區(qū)域的S3存儲服務(wù)是如何受到中斷的,以及它在采取什么措施防止這種情況再次發(fā)生。?AWS周四聲稱,輸錯命令導(dǎo)致了亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)出現(xiàn)持續(xù)數(shù)小時的故障事件。這...
閱讀 1358·2023-01-11 13:20
閱讀 1707·2023-01-11 13:20
閱讀 1215·2023-01-11 13:20
閱讀 1907·2023-01-11 13:20
閱讀 4165·2023-01-11 13:20
閱讀 2759·2023-01-11 13:20
閱讀 1402·2023-01-11 13:20
閱讀 3673·2023-01-11 13:20