成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

數(shù)據(jù)庫故障營業(yè)系統(tǒng)重啟恢復(fù)操作

IT那活兒 / 781人閱讀
數(shù)據(jù)庫故障營業(yè)系統(tǒng)重啟恢復(fù)操作
點擊上方“IT那活兒”公眾號,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了?。。?/strong>

  

當(dāng)數(shù)據(jù)庫出現(xiàn)故障時,營業(yè)系統(tǒng)需要配合進行切換及重啟恢復(fù)操作。而手動停止、啟動、重啟業(yè)務(wù)應(yīng)用容器、進程等操作比較繁瑣效率低,原來需要多人同時花費大量時間完成的事情使用該場景功能現(xiàn)在只用一個人就能解決,把大量重復(fù)性工作并發(fā)執(zhí)行減少工作量、人為誤操作等并提升整體工作效率。



哪個平臺可以將大量重復(fù)性工作并發(fā)執(zhí)行減少工作量、人為誤操作等并提升整體工作效率???

那就必須給大家介紹一款產(chǎn)品:ZnAiops智慧運營管理平臺--基于統(tǒng)一的智能中臺構(gòu)建,具備構(gòu)建一體化、自動化、智能化運維管理能力。接下來就給大家具體展示一下它所具備的場景功能。







場景流程



通過這個調(diào)度可以實現(xiàn)單節(jié)點故障/恢復(fù)、數(shù)據(jù)庫全停庫割接兩個場景。

1. 單節(jié)點故障/恢復(fù)

場景描述:營業(yè)A庫,營業(yè)A1、A2連接同一個存儲,當(dāng)A1出現(xiàn)故障掛掉后A1連接數(shù)會自動漂移至A2,A1手動恢復(fù)正常后A2中短連接并未流向A1,容器、進程還未重啟的情況下A2可能會因為連接數(shù)過高造成宕機等問題。
解決方案:使用該場景通過一鍵重啟云化系統(tǒng)、進程使A2保留長連接其中短連接流向A1,讓系統(tǒng)恢復(fù)正常。

2. 全停庫割接

場景描述:首先要把連割接數(shù)據(jù)庫的業(yè)務(wù)應(yīng)用停掉,然后dba停止數(shù)據(jù)庫進行割接操作完成后啟動數(shù)據(jù)庫,啟動之前停掉的業(yè)務(wù)應(yīng)用,重啟后臺進程。
解決方案:使用該場景能實現(xiàn)一鍵停止、啟動業(yè)務(wù)應(yīng)用容器,根據(jù)需求一鍵重啟后臺進程,減少現(xiàn)場多位人員大量啟停重復(fù)性工作,使其單人就能完成。





操作步驟



場景一:單節(jié)點故障/恢復(fù),分為四個步驟。

step1:選擇工作類型

選擇對應(yīng)場景:執(zhí)行調(diào)度,工作類型選擇單節(jié)點恢復(fù),數(shù)據(jù)庫選擇涉及的數(shù)據(jù)庫。

step2:重啟云化系統(tǒng)

支持滾動重啟云化系統(tǒng),選擇off將會不重啟容器進入下一節(jié)點,選擇on將會重啟容器腳本如下:
該腳本調(diào)用K8s api通過修改yaml配置中的annotations的變量值構(gòu)建新的YAML信息替換原有的yaml來實現(xiàn)了滾動重啟namespace。

step3:重啟后臺進程

選擇是否重啟后臺進程。選擇off單節(jié)點故障/恢復(fù)流程結(jié)束,選擇on將會重啟進程,腳本如下:
該腳本使用了多線程 、paramiko直接對遠程服務(wù)器進行操作來實現(xiàn)從數(shù)據(jù)庫讀取需要重啟的后臺進程并重啟。
這里需要注意一點,如果上一步選擇執(zhí)行滾動重啟云化系統(tǒng)的任務(wù)的話,需要等待云化系統(tǒng)重啟完成后才能重啟后臺進程,否則可能會導(dǎo)致部分后臺進程連接jcrm等容器失敗。

step4:檢查后臺進程重啟情況

登錄智慧運維管理平臺使用數(shù)據(jù)庫查詢服務(wù),檢查進程重啟情況,SQL如下:
select t.restarting_status, count(*)
from shsnc.process_yy_fwkt t
group by t.restarting_status

場景二:全停庫割接,分為個六個步驟。

step1選擇工作類型

執(zhí)行調(diào)度,工作類型選擇全停庫割接,數(shù)據(jù)庫選擇涉及的數(shù)據(jù)庫。

step2:停止容器

開始執(zhí)行后會先自動根據(jù)選擇涉及的數(shù)據(jù)庫對云化系統(tǒng)對應(yīng)的容器進行停止處理并等待操作,腳本參數(shù)如下:
該腳本調(diào)用K8s api通過修改副本數(shù)為0停止容器,實現(xiàn)了保存depoyment下容器數(shù)量并停止容器。

step3:dba割接操作

停止數(shù)據(jù)庫,需要dba配合停止數(shù)據(jù)庫,等待數(shù)據(jù)庫停止后選擇ON通過。
啟動數(shù)據(jù)庫,需要dba配合啟動數(shù)據(jù)庫進行割接,等待全部完成后選擇ON通過。

step4:啟動容器

啟動停止的容器,上一步通過以后會自動將之前停止的容器重新拉起,腳本如下:
該腳本調(diào)用K8s api通過修改副本數(shù)為停止前數(shù)值啟動容器,實現(xiàn)了保存depoyment下容器數(shù)量并啟動容器。

step5:重啟后臺進程

選擇是否重啟后臺進程。選擇off全停庫割接流程結(jié)束,選擇on將會重啟進程,腳本如下:
該腳本使用了多線程 、paramiko直接對遠程服務(wù)器進行操作來實現(xiàn)從數(shù)據(jù)庫讀取需要重啟的后臺進程并重啟。

step6檢查后臺進程重啟情況

登錄智慧運維管理平臺使用數(shù)據(jù)庫查詢服務(wù),檢查進程重啟情況,SQL如下:
selectt.restarting_status, count(*)
fromshsnc.process_yy_fwkt t
group by t.restarting_status;


單節(jié)點故障/恢復(fù)操作展示

智慧運維管理平臺-操作中心-運維配置-調(diào)度-執(zhí)行數(shù)據(jù)庫割接單節(jié)點恢復(fù)云化系統(tǒng)重啟選擇單節(jié)點恢復(fù),開始執(zhí)行后選擇滾動重啟云化系統(tǒng),操作界面輸出日志等待程序執(zhí)行完成后結(jié)束。

注意事項:單節(jié)點恢復(fù)的時候需要把部分容器剔除如行程碼,注意容器啟停順序等。

開發(fā)中的難點

  • k8s沒有滾動重啟的api,僅提供命令行。
  • 解決方案:直接修改pod的yaml的部署文件,apply滾動更新。





后續(xù)優(yōu)化



目前整個場景流程中重啟容器、進程操作沒有檢查項是否重啟完成,檢查操作已在開發(fā)中。

因該場景較為特殊測試會影響到生產(chǎn)環(huán)境,尚未在生產(chǎn)環(huán)境中正式執(zhí)行過,無法確定功能是否存在其他問題。

本文作者:易俊杰(上海新炬王翦團隊)

本文來源:“IT那活兒”公眾號

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/129346.html

相關(guān)文章

  • 云計算節(jié)點故障自動化運維服務(wù)設(shè)計

    此文已由作者王盼授權(quán)網(wǎng)易云社區(qū)發(fā)布。 歡迎訪問網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運營經(jīng)驗~ 現(xiàn)狀計算節(jié)點發(fā)生磁盤損壞等數(shù)據(jù)無法恢復(fù)的異常時,節(jié)點上的云主機系統(tǒng)盤無法恢復(fù),導(dǎo)致云主機只能被清理重建 計算節(jié)點宕機但磁盤數(shù)據(jù)可用時,重啟即可恢復(fù)所有云主機的運行 計算節(jié)點多次宕機(或一段時間內(nèi)頻繁宕機),則需要遷移所有云主機或者直接清理重建,云硬盤需要遷移到其他cinder-volume存儲服務(wù)節(jié)點 一般來...

    seanHai 評論0 收藏0
  • 盤點:2014年十大云故障

    摘要:以下這個名單恐怕是這些公司不想看到的的年前大云故障。微軟稱這次中斷是由外部網(wǎng)絡(luò)故障所導(dǎo)致,部分用戶受影響長達個小時。微軟表示這次中斷與故障無關(guān)。微軟最終確定人為錯誤是罪魁禍?zhǔn)住?本杰明?富蘭克林曾經(jīng)說過,這個世界上有兩件事情不可避免,死亡和納稅。但如果這位偉大的政治家和發(fā)明家活在我們的現(xiàn)代世界,也許服務(wù)器停機也會進入這個名單。不管底層技術(shù)再怎么好,也不管托管提供商再多么能干,云總是會發(fā)生故障...

    DesGemini 評論0 收藏0
  • AWS S3 掛掉原因:程序員輸錯字母,誤刪服務(wù)器,故障4小時!

    摘要:周四聲稱,輸錯命令導(dǎo)致了亞馬遜網(wǎng)絡(luò)服務(wù)出現(xiàn)持續(xù)數(shù)小時的故障事件。太平洋標(biāo)準(zhǔn)時上午,一名獲得授權(quán)的團隊成員使用事先編寫的,執(zhí)行一條命令,該命令旨在為計費流程使用的其中一個子系統(tǒng)刪除少量服務(wù)器。 AWS解釋了其廣大US-EAST-1地理區(qū)域的S3存儲服務(wù)是如何受到中斷的,以及它在采取什么措施防止這種情況再次發(fā)生。?AWS周四聲稱,輸錯命令導(dǎo)致了亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)出現(xiàn)持續(xù)數(shù)小時的故障事件。這...

    MarvinZhang 評論0 收藏0

發(fā)表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<