數(shù)據(jù)庫故障營業(yè)系統(tǒng)重啟恢復(fù)操作

IT那活兒發(fā)布于2023-01-11 13:19 / 781人閱讀

點擊上方“IT那活兒”公眾號，關(guān)注后了解更多內(nèi)容，不管IT什么活兒，干就完了?。。?/strong>

當(dāng)數(shù)據(jù)庫出現(xiàn)故障時，營業(yè)系統(tǒng)需要配合進行切換及重啟恢復(fù)操作。而手動停止、啟動、重啟業(yè)務(wù)應(yīng)用容器、進程等操作比較繁瑣效率低，原來需要多人同時花費大量時間完成的事情使用該場景功能現(xiàn)在只用一個人就能解決，把大量重復(fù)性工作并發(fā)執(zhí)行減少工作量、人為誤操作等并提升整體工作效率。

問

哪個平臺可以將大量重復(fù)性工作并發(fā)執(zhí)行減少工作量、人為誤操作等并提升整體工作效率？？？

那就必須給大家介紹一款產(chǎn)品：ZnAiops智慧運營管理平臺--基于統(tǒng)一的智能中臺構(gòu)建，具備構(gòu)建一體化、自動化、智能化運維管理能力。接下來就給大家具體展示一下它所具備的場景功能。

答

場景流程

通過這個調(diào)度可以實現(xiàn)單節(jié)點故障/恢復(fù)、數(shù)據(jù)庫全停庫割接兩個場景。

1. 單節(jié)點故障/恢復(fù)

場景描述：營業(yè)A庫，營業(yè)A1、A2連接同一個存儲，當(dāng)A1出現(xiàn)故障掛掉后A1連接數(shù)會自動漂移至A2，A1手動恢復(fù)正常后A2中短連接并未流向A1，容器、進程還未重啟的情況下A2可能會因為連接數(shù)過高造成宕機等問題。

解決方案：使用該場景通過一鍵重啟云化系統(tǒng)、進程使A2保留長連接其中短連接流向A1，讓系統(tǒng)恢復(fù)正常。

2. 全停庫割接

場景描述：首先要把連割接數(shù)據(jù)庫的業(yè)務(wù)應(yīng)用停掉，然后dba停止數(shù)據(jù)庫進行割接操作完成后啟動數(shù)據(jù)庫，啟動之前停掉的業(yè)務(wù)應(yīng)用，重啟后臺進程。

解決方案：使用該場景能實現(xiàn)一鍵停止、啟動業(yè)務(wù)應(yīng)用容器，根據(jù)需求一鍵重啟后臺進程，減少現(xiàn)場多位人員大量啟停重復(fù)性工作，使其單人就能完成。

操作步驟

場景一：單節(jié)點故障/恢復(fù)，分為四個步驟。

step1：選擇工作類型

選擇對應(yīng)場景：執(zhí)行調(diào)度，工作類型選擇單節(jié)點恢復(fù)，數(shù)據(jù)庫選擇涉及的數(shù)據(jù)庫。

step2：重啟云化系統(tǒng)

支持滾動重啟云化系統(tǒng)，選擇off將會不重啟容器進入下一節(jié)點，選擇on將會重啟容器腳本如下：

該腳本調(diào)用K8s api通過修改yaml配置中的annotations的變量值構(gòu)建新的YAML信息替換原有的yaml來實現(xiàn)了滾動重啟namespace。

step3：重啟后臺進程

選擇是否重啟后臺進程。選擇off單節(jié)點故障/恢復(fù)流程結(jié)束，選擇on將會重啟進程，腳本如下：

該腳本使用了多線程、paramiko直接對遠程服務(wù)器進行操作來實現(xiàn)從數(shù)據(jù)庫讀取需要重啟的后臺進程并重啟。

這里需要注意一點，如果上一步選擇執(zhí)行滾動重啟云化系統(tǒng)的任務(wù)的話，需要等待云化系統(tǒng)重啟完成后才能重啟后臺進程，否則可能會導(dǎo)致部分后臺進程連接jcrm等容器失敗。

step4：檢查后臺進程重啟情況

登錄智慧運維管理平臺使用數(shù)據(jù)庫查詢服務(wù)，檢查進程重啟情況，SQL如下：

select t.restarting_status, count(*)
from shsnc.process_yy_fwkt t
group by t.restarting_status

場景二：全停庫割接，分為個六個步驟。

step1：選擇工作類型

執(zhí)行調(diào)度，工作類型選擇全停庫割接，數(shù)據(jù)庫選擇涉及的數(shù)據(jù)庫。

step2：停止容器

開始執(zhí)行后會先自動根據(jù)選擇涉及的數(shù)據(jù)庫對云化系統(tǒng)對應(yīng)的容器進行停止處理并等待操作，腳本參數(shù)如下：

該腳本調(diào)用K8s api通過修改副本數(shù)為0停止容器，實現(xiàn)了保存depoyment下容器數(shù)量并停止容器。

step3：dba割接操作

停止數(shù)據(jù)庫，需要dba配合停止數(shù)據(jù)庫，等待數(shù)據(jù)庫停止后選擇ON通過。

啟動數(shù)據(jù)庫，需要dba配合啟動數(shù)據(jù)庫進行割接，等待全部完成后選擇ON通過。

step4：啟動容器

啟動停止的容器，上一步通過以后會自動將之前停止的容器重新拉起，腳本如下：

該腳本調(diào)用K8s api通過修改副本數(shù)為停止前數(shù)值啟動容器,實現(xiàn)了保存depoyment下容器數(shù)量并啟動容器。

step5：重啟后臺進程

選擇是否重啟后臺進程。選擇off全停庫割接流程結(jié)束，選擇on將會重啟進程，腳本如下：

該腳本使用了多線程、paramiko直接對遠程服務(wù)器進行操作來實現(xiàn)從數(shù)據(jù)庫讀取需要重啟的后臺進程并重啟。

step6：檢查后臺進程重啟情況

登錄智慧運維管理平臺使用數(shù)據(jù)庫查詢服務(wù)，檢查進程重啟情況，SQL如下：

selectt.restarting_status, count(*)
fromshsnc.process_yy_fwkt t
group by t.restarting_status;

單節(jié)點故障/恢復(fù)操作展示

智慧運維管理平臺-操作中心-運維配置-調(diào)度-執(zhí)行數(shù)據(jù)庫割接單節(jié)點恢復(fù)云化系統(tǒng)重啟選擇單節(jié)點恢復(fù)，開始執(zhí)行后選擇滾動重啟云化系統(tǒng)，操作界面輸出日志等待程序執(zhí)行完成后結(jié)束。

注意事項：單節(jié)點恢復(fù)的時候需要把部分容器剔除如行程碼，注意容器啟停順序等。

開發(fā)中的難點

k8s沒有滾動重啟的api，僅提供命令行。
解決方案：直接修改pod的yaml的部署文件，apply滾動更新。

后續(xù)優(yōu)化

目前整個場景流程中重啟容器、進程操作沒有檢查項是否重啟完成，檢查操作已在開發(fā)中。

因該場景較為特殊測試會影響到生產(chǎn)環(huán)境，尚未在生產(chǎn)環(huán)境中正式執(zhí)行過，無法確定功能是否存在其他問題。

本文作者：易俊杰（上海新炬王翦團隊）

本文來源：“IT那活兒”公眾號

云服務(wù)器 GPU云服務(wù)器 linux操作系統(tǒng)重啟 ecs windows系統(tǒng)重啟后顯示系統(tǒng)恢復(fù)選項數(shù)據(jù)庫故障恢復(fù) RDS 數(shù)據(jù)庫故障恢復(fù)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/129346.html

上一篇：Hbase安裝及配置

下一篇：Java語言中兩種常用的計時器

相關(guān)文章

云計算節(jié)點故障自動化運維服務(wù)設(shè)計

此文已由作者王盼授權(quán)網(wǎng)易云社區(qū)發(fā)布。歡迎訪問網(wǎng)易云社區(qū)，了解更多網(wǎng)易技術(shù)產(chǎn)品運營經(jīng)驗~ 現(xiàn)狀計算節(jié)點發(fā)生磁盤損壞等數(shù)據(jù)無法恢復(fù)的異常時，節(jié)點上的云主機系統(tǒng)盤無法恢復(fù)，導(dǎo)致云主機只能被清理重建計算節(jié)點宕機但磁盤數(shù)據(jù)可用時，重啟即可恢復(fù)所有云主機的運行計算節(jié)點多次宕機（或一段時間內(nèi)頻繁宕機），則需要遷移所有云主機或者直接清理重建，云硬盤需要遷移到其他cinder-volume存儲服務(wù)節(jié)點一般來...

seanHai 2019-06-28 10:59 評論0 收藏0

盤點：2014年十大云故障

摘要：以下這個名單恐怕是這些公司不想看到的的年前大云故障。微軟稱這次中斷是由外部網(wǎng)絡(luò)故障所導(dǎo)致，部分用戶受影響長達個小時。微軟表示這次中斷與故障無關(guān)。微軟最終確定人為錯誤是罪魁禍?zhǔn)住?本杰明?富蘭克林曾經(jīng)說過，這個世界上有兩件事情不可避免，死亡和納稅。但如果這位偉大的政治家和發(fā)明家活在我們的現(xiàn)代世界，也許服務(wù)器停機也會進入這個名單。不管底層技術(shù)再怎么好，也不管托管提供商再多么能干，云總是會發(fā)生故障...

DesGemini 2019-04-25 17:39 評論0 收藏0

AWS S3 掛掉原因：程序員輸錯字母，誤刪服務(wù)器，故障4小時！

摘要：周四聲稱，輸錯命令導(dǎo)致了亞馬遜網(wǎng)絡(luò)服務(wù)出現(xiàn)持續(xù)數(shù)小時的故障事件。太平洋標(biāo)準(zhǔn)時上午，一名獲得授權(quán)的團隊成員使用事先編寫的，執(zhí)行一條命令，該命令旨在為計費流程使用的其中一個子系統(tǒng)刪除少量服務(wù)器。 AWS解釋了其廣大US-EAST-1地理區(qū)域的S3存儲服務(wù)是如何受到中斷的，以及它在采取什么措施防止這種情況再次發(fā)生。?AWS周四聲稱，輸錯命令導(dǎo)致了亞馬遜網(wǎng)絡(luò)服務(wù)（AWS）出現(xiàn)持續(xù)數(shù)小時的故障事件。這...

MarvinZhang 2019-04-25 17:45 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

IT那活兒

男|高級講師

我要關(guān)注我要私信

TA的文章
閱讀更多

消息中間件故障分析一例

閱讀 1358·2023-01-11 13:20

RAC雙節(jié)點crash回復(fù)一例

閱讀 1707·2023-01-11 13:20

ORA-600處理一例

閱讀 1215·2023-01-11 13:20

雙節(jié)點RAC實例2 HANG 故障分析一例

閱讀 1907·2023-01-11 13:20

RAC集群節(jié)點1重啟分析一例

閱讀 4165·2023-01-11 13:20

CRS啟動報錯CRS-1656處理分享

閱讀 2759·2023-01-11 13:20

oracle 12CR2打補丁報錯處理一例

閱讀 1402·2023-01-11 13:20

分布式緩存組件故障分析及監(jiān)控優(yōu)化

閱讀 3673·2023-01-11 13:20

最新活動

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

數(shù)據(jù)庫故障營業(yè)系統(tǒng)重啟恢復(fù)操作

1. 單節(jié)點故障/恢復(fù)

2. 全停庫割接

step1：選擇工作類型

step2：重啟云化系統(tǒng)

step3：重啟后臺進程

step4：檢查后臺進程重啟情況

場景二：全停庫割接，分為個六個步驟。

step1：選擇工作類型

step2：停止容器

step3：dba割接操作

step4：啟動容器

step5：重啟后臺進程

step6：檢查后臺進程重啟情況

單節(jié)點故障/恢復(fù)操作展示

注意事項：單節(jié)點恢復(fù)的時候需要把部分容器剔除如行程碼，注意容器啟停順序等。

開發(fā)中的難點

本文作者：易俊杰（上海新炬王翦團隊）

本文來源：“IT那活兒”公眾號

相關(guān)文章

云計算節(jié)點故障自動化運維服務(wù)設(shè)計

盤點：2014年十大云故障

AWS S3 掛掉原因：程序員輸錯字母，誤刪服務(wù)器，故障4小時！

發(fā)表評論

0條評論

IT那活兒

男|高級講師

TA的文章

消息中間件故障分析一例

RAC雙節(jié)點crash回復(fù)一例

ORA-600處理一例

雙節(jié)點RAC實例2 HANG 故障分析一例

RAC集群節(jié)點1重啟分析一例

CRS啟動報錯CRS-1656處理分享

oracle 12CR2打補丁報錯處理一例

分布式緩存組件故障分析及監(jiān)控優(yōu)化

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

數(shù)據(jù)庫故障營業(yè)系統(tǒng)重啟恢復(fù)操作

1. 單節(jié)點故障/恢復(fù)

2. 全停庫割接

step1：選擇工作類型

step2：重啟云化系統(tǒng)

step3：重啟后臺進程

step4：檢查后臺進程重啟情況

場景二：全停庫割接，分為個六個步驟。

step1：選擇工作類型

step2：停止容器

step3：dba割接操作

step4：啟動容器

step5：重啟后臺進程

step6：檢查后臺進程重啟情況

單節(jié)點故障/恢復(fù)操作展示

注意事項：單節(jié)點恢復(fù)的時候需要把部分容器剔除如行程碼，注意容器啟停順序等。

開發(fā)中的難點

本文作者：易俊杰（上海新炬王翦團隊）

本文來源：“IT那活兒”公眾號

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

場景二：全停庫割接，分為個六個步驟。

注意事項：單節(jié)點恢復(fù)的時候需要把部分容器剔除如行程碼，注意容器啟停順序等。