TIDB災(zāi)難恢復(fù)演練三部曲（下）

IT那活兒發(fā)布于2023-01-11 13:20 / 915人閱讀

TIDB災(zāi)難恢復(fù)演練三部曲（上）

接上回，我們開始對三副本丟失進(jìn)行演練。

同時宕掉三臺機(jī)器

便于理解，先看表t_user新的region分布：

我們這次選擇宕掉Tikv2135、Tikv3136和Tikv4137，從分布圖可以判斷有兩region會丟失三副本，一個region丟失兩個副本，最后一個region丟失一個副本的情況。

同樣的先檢查宕機(jī)前測試表的狀況:

MySQL[sbtest2]> select count(*) from t_user;

+----------+

|count(*) |

+----------+

| 3000000 |

+----------+

1row in set (1.88 sec)

同時宕掉Tikv2135、Tikv3136和Tikv4137兩臺機(jī)器后測試表的情況：

MySQL[sbtest2]> select count(*) from t_user;

ERROR9005 (HY000): Region is unavailable

集群狀態(tài)：

檢查宕機(jī)的兩臺機(jī)器對應(yīng)的store_id：

[root@tidb1bin]# /root/tidb-v4.0.0-linux-amd64/bin/pd-ctl -i -uhttp://172.16.134.133:2379

?store

這里是1，5，6

通過 pd-ctlconfig get 獲取region-schedule-limit、replica-schedule-limit、leader-schedule-limit、merge-schedule-limit并通過 pd-ctlconfig set 將這 4個參數(shù)設(shè)為 0

使用pd-ctl 檢查大于等于一半副本數(shù)在故障節(jié)點上的Region，并記錄它們的ID（故障節(jié)點為storeid 1，5，6）：

? region --jq=".regions[] | {id: .id,peer_stores: [.peers[].store_id] | select(length as $total | map(if.==(1,5,6) then . else empty end) | length>=$total-length) }"

{"id":3089,"peer_stores":[5,4,6]}

{"id":47,"peer_stores":[4,5,6]}

{"id":75,"peer_stores":[4,5,6]}

{"id":30,"peer_stores":[6,4,5]}

{"id":135,"peer_stores":[6,4,5]}

{"id":4017,"peer_stores":[6,7,5]}

{"id":67,"peer_stores":[4,5,1]}

{"id":2289,"peer_stores":[4,6,5]}

{"id":18,"peer_stores":[6,4,5]}

{"id":39,"peer_stores":[6,4,5]}

{"id":51,"peer_stores":[4,6,5]}

{"id":10,"peer_stores":[4,5,6]}

{"id":14,"peer_stores":[6,5,4]}

{"id":83,"peer_stores":[6,4,5]}

{"id":59,"peer_stores":[6,4,5]}

{"id":6768,"peer_stores":[1,6,4]}

{"id":22,"peer_stores":[4,5,6]}

{"id":26,"peer_stores":[6,4,5]}

{"id":43,"peer_stores":[6,4,5]}

{"id":131,"peer_stores":[6,4,5]}

{"id":4009,"peer_stores":[6,1,5]}

{"id":2,"peer_stores":[7,6,5]}

{"id":63,"peer_stores":[4,5,1]}

{"id":87,"peer_stores":[6,4,5]}

{"id":6734,"peer_stores":[6,1,5]}

{"id":3080,"peer_stores":[6,4,5]}

{"id":3084,"peer_stores":[6,4,5]}

{"id":3076,"peer_stores":[6,4,5]}

{"id":34,"peer_stores":[6,4,5]}

{"id":127,"peer_stores":[6,4,5]}

{"id":3070,"peer_stores":[6,4,5]}

向上滑動查看更多內(nèi)容

我們可以看到表的三個regionID均在列表中，另外的一個region由于只丟失一個副本，并未出現(xiàn)在列表中。

在剩余正常的kv節(jié)點上執(zhí)行停Tikv的操作：

[root@tidb1bin]# tiup cluster stop tidb-test -R=tikv

在所有健康的節(jié)點上執(zhí)行(操作需要確保健康的節(jié)點關(guān)閉了Tikv)：

[root@tidb2 bin]# ./tikv-ctl --db /data1/tidb-data/tikv-20160/dbunsafe-recover remove-fail-stores -s 1,5,6 --all-regions

removingstores [1, 5, 6] from configurations...

success

[root@tidb6bin]# ./tikv-ctl --db /data1/tidb-data/tikv-20160/db unsafe-recoverremove-fail-stores -s 1,5,6 --all-regions

removingstores [1, 5, 6] from configurations...

success

停止PD節(jié)點：

[root@tidb1~]# tiup cluster stop tidb-test -R=pd

Startingcomponent `cluster`: /root/.tiup/component

重啟啟動PDtikv節(jié)點：

[root@tidb1~]# tiup cluster start tidb-test -R=pd,tikv

檢查沒有處于leader狀態(tài)的region（要保持沒有）：

[root@tidb1~]# pd-ctl -i -u http://172.16.134.133:2379

?region --jq .regions[]|select(has("leader")|not)|{id:.id,peer_stores: [.peers[].store_id]}

{"id":4009,"peer_stores":[6,1,5]}

{"id":6734,"peer_stores":[6,1,5]}

這里沒有發(fā)現(xiàn)任然有兩個region處于沒有l(wèi)eader的狀態(tài)。另外丟失兩副本的一個region以及通過unsafe-recover的方式進(jìn)行了復(fù)制。

嘗試訪問表t_user

MySQL[sbtest2]> select count(*) from t_user;

ERROR9002 (HY000): TiKV server timeout

或者

MySQL[sbtest2]> select count(*) from t_user;

ERROR9005 (HY000): Region is unavailable

兩次執(zhí)行的結(jié)果有所不一樣。

根據(jù)regionID，確認(rèn)region屬于哪張表，以備后續(xù)同步數(shù)據(jù)需要。

[root@tidb1~]# curl http://172.16.134.133:10080/regions/4009

{

"region_id": 4009,

"start_key": "dIAAAAAAAABN",

"end_key": "dIAAAAAAAABNX3KAAAAAAAt8fw==",

"frames": [

{

"db_name": "sbtest2",

"table_name": "t_user",

"table_id": 77,

"is_record": true,

"record_id": 752767

}

]

兩個regionID均屬于同一張表。

創(chuàng)建空Region 解決Unavailable 報錯。任選一個Store，關(guān)閉上面的TiKV，然后執(zhí)行：

[root@tidb2bin]# ./tikv-ctl --db /data1/tidb-data/tikv-20160/db recreate-region-p 172.16.134.133:2379 -r 4009

initingempty region 17001 with peer_id 17002...

success

[root@tidb2bin]# ./tikv-ctl --db /data1/tidb-data/tikv-20160/db recreate-region-p 172.16.134.133:2379 -r 6734

initingempty region 17003 with peer_id 17004...

success

如果不關(guān)閉tikv會報錯：

[root@tidb2bin]# ./tikv-ctl --db /data1/tidb-data/tikv-20160/db recreate-region-p 172.16.134.133:2379 -r 4009

threadmain panicked at called `Result::unwrap()` on an `Err` value:RocksDb("IO error: While lock file:/data1/tidb-data/tikv-20160/db/LOCK: Resource temporarilyunavailable"), src/libcore/result.rs:1188:5

note:run with `RUST_BACKTRACE=1` environment variable to display abacktrace.

停止PD節(jié)點：

[root@tidb1~]# tiup cluster stop tidb-test -R=pd

Startingcomponent `cluster`: /root/.tiup/component

重啟啟動PDtikv節(jié)點：

[root@tidb1~]# tiup cluster start tidb-test -R=pd,tikv

檢查沒有處于leader狀態(tài)的region（要保持沒有）：

[root@tidb1~]# pd-ctl -i -u http://172.16.134.133:2379

?region --jq .regions[]|select(has("leader")|not)|{id:.id,peer_stores: [.peers[].store_id]}

重新修改PD的參數(shù)并嘗試訪問表t_user

MySQL[sbtest2]> select count(*) from t_user;

+----------+

|count(*) |

+----------+

| 1494555 |

+----------+

1row in set (1.92 sec)

由于丟失掉兩個region的所有副本，所以我們查詢出的數(shù)據(jù)量減少，至此恢復(fù)測試結(jié)束。

我們再看看region的分布情況：

發(fā)現(xiàn)原來三副本丟失的regionID發(fā)生了改變。

可以看到表t_user的所有region只有兩副本。

總結(jié)

TiDB集群中數(shù)據(jù)存儲Tikv如果宕了一臺機(jī)器，那么并不影響集群的運行，數(shù)據(jù)庫自身會進(jìn)行處理，PD會將其上的數(shù)據(jù)region遷移到其他的TiKV節(jié)點上。但如果同時宕機(jī)兩臺，甚至3臺及以上災(zāi)難情況，相信通過上文的介紹理解和相關(guān)命令的查詢以及修復(fù)，能迅速進(jìn)行對應(yīng)的恢復(fù)操作。筆者后續(xù)會基于平臺將上述過程實現(xiàn)，到時再來和大家分享。

參考文檔https://book.tidb.io/session3/chapter5/recover-quorum.html

云服務(wù)器 GPU云服務(wù)器災(zāi)難恢復(fù) 災(zāi)難恢復(fù)管理專有網(wǎng)絡(luò)災(zāi)難恢復(fù) sql 災(zāi)難恢復(fù)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/130198.html

發(fā)表評論

登陸后可評論

0條評論

IT那活兒

男|高級講師

我要關(guān)注我要私信

TA的文章

消息中間件故障分析一例

閱讀 1356·2023-01-11 13:20
RAC雙節(jié)點crash回復(fù)一例

閱讀 1707·2023-01-11 13:20
ORA-600處理一例

閱讀 1215·2023-01-11 13:20
雙節(jié)點RAC實例2 HANG 故障分析一例

閱讀 1906·2023-01-11 13:20
RAC集群節(jié)點1重啟分析一例

閱讀 4165·2023-01-11 13:20
CRS啟動報錯CRS-1656處理分享

閱讀 2757·2023-01-11 13:20
oracle 12CR2打補丁報錯處理一例

閱讀 1402·2023-01-11 13:20
分布式緩存組件故障分析及監(jiān)控優(yōu)化

閱讀 3671·2023-01-11 13:20

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

TIDB災(zāi)難恢復(fù)演練三部曲（下）

相關(guān)文章

“怎么做好云遷移”? 深藍(lán)云海資深架構(gòu)師給你答案

**云計算災(zāi)難恢復(fù)最佳實踐**

人們需要了解的數(shù)據(jù)中心的網(wǎng)絡(luò)威脅

為什么云計算在倫敦奧運會無用武之地

數(shù)據(jù)“金”鐘罩，你值得擁有

發(fā)表評論

0條評論

IT那活兒

男|高級講師

TA的文章

消息中間件故障分析一例

RAC雙節(jié)點crash回復(fù)一例

ORA-600處理一例

雙節(jié)點RAC實例2 HANG 故障分析一例

RAC集群節(jié)點1重啟分析一例

CRS啟動報錯CRS-1656處理分享

oracle 12CR2打補丁報錯處理一例

分布式緩存組件故障分析及監(jiān)控優(yōu)化

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

TIDB災(zāi)難恢復(fù)演練三部曲（下）

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！