點(diǎn)擊上方“IT那活兒”公眾號(hào),關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了!??!
由于TiDB-server層是無狀態(tài)服務(wù),并且有Haproxy進(jìn)行流量負(fù)載均衡,TiKV和PD層有Raft協(xié)議的高可用保障,停止單臺(tái)服務(wù)器進(jìn)行維護(hù)對(duì)整個(gè)集群運(yùn)行沒有太大影響,但是集群會(huì)存在有某些SQL訪問、在線DDL延遲抖動(dòng)的情況,總體影響不是太大。延遲抖動(dòng)主要有以下原因:
PD層Leader的轉(zhuǎn)移類似TiKV,TiDB-server層中owner轉(zhuǎn)移需重新選擇新owner會(huì)對(duì)正在執(zhí)行中DDL有影響。
應(yīng)用檢查業(yè)務(wù)使用情況。
通常情況下,線上集群對(duì) TiKV 的部署是單機(jī)單實(shí)例或者單機(jī)多實(shí)例,在對(duì)服務(wù)器做臨時(shí)維護(hù)時(shí),需要根據(jù)部署情況來進(jìn)行相應(yīng)的處理,由于現(xiàn)網(wǎng)為單機(jī)單實(shí)例只做對(duì)應(yīng)的描述;在實(shí)際維護(hù)中TiKV節(jié)點(diǎn)下線過程中Leader region調(diào)度對(duì)集群的服務(wù)影響很小,并且Leader region調(diào)度速度也較快。
修改 max-store-down-time 超過服務(wù)器維護(hù)時(shí)間,默認(rèn) 30 min,保證在服務(wù)器維護(hù)期間不發(fā)生補(bǔ)副本行為(需要注意維護(hù)完成后將參數(shù)恢復(fù)。)
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 config set max-store-down-time 60m //
修改為60分鐘,根據(jù)實(shí)際情況而定
檢查是否有 label,確保沒有標(biāo)簽(如果存在標(biāo)簽需要多帶帶分析是否為單機(jī)多實(shí)例的情況。)
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 label
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 store
遷移該服務(wù)器上所有 store 的 leader到其他節(jié)點(diǎn)。
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 scheduler add evict-leader-scheduler 2 //
把 store 2 上的所有 region 的 leader 從 store 2 調(diào)度出去
檢查 leader 情況:
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 store 2 //
檢查該服務(wù)器所有 tikv 節(jié)點(diǎn)上的 leader count,leader count數(shù)量為 0 進(jìn)行下一步,否則等待為0
停止Tikv組件:
tiup cluster stop tidb-test -N {TiKVIP}:20160
通常大多數(shù)的線上集群有3 或5個(gè)PD節(jié)點(diǎn),如果維護(hù)的服務(wù)器上有PD 組件,需要具體考慮節(jié)點(diǎn)是 leader 還是 follower(以下1 和 2 兩部分),關(guān)閉 follower 對(duì)集群運(yùn)行沒有任何影響,關(guān)閉 leader 需要先切換,并在切換時(shí)可能存在短暫性能抖動(dòng)。
檢查當(dāng)前待操作 PD 集群節(jié)點(diǎn)信息:
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member //顯示當(dāng)前所有成員
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader show //顯示當(dāng)前Leader成員
停止當(dāng)前待操作 PD follower 節(jié)點(diǎn):
tiup cluster stop tidb-test -N {PDIP}:2379
2. 當(dāng)前服務(wù)器包括一個(gè) PD leader 節(jié)點(diǎn)且集群 PD 總數(shù) >= 3
檢查當(dāng)前待操作 PD 集群節(jié)點(diǎn)信息:
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member //顯示當(dāng)前所有成員
檢查當(dāng)前待操作 PD 節(jié)點(diǎn)角色:
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader show //顯示當(dāng)前l(fā)eader 的信息
遷移 leader 節(jié)點(diǎn):
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader transfer pd-id // 將 leader 遷移到指定成員pd-id
檢查遷移結(jié)果:
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader show
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member //顯示當(dāng)前所有成員,遷移成功進(jìn)行下一步,否則等待
在待維護(hù)服務(wù)器上執(zhí)行停PD節(jié)點(diǎn):
tiup cluster stop tidb-test -N {PDIP}:2379
leader 遷回(可選):
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader transfer pd-id // 將 leader 遷移到指定成員
tiup cluster stop tidb-test -N {TiDBIP}:4000
在實(shí)際生產(chǎn)環(huán)境中,TiDB集群經(jīng)常會(huì)和DM(數(shù)據(jù)同步工具)配合使用,在停單臺(tái)服務(wù)器進(jìn)行維護(hù)操作之前需認(rèn)真梳理DM同步到TiDB的任務(wù),如果DM工具的目標(biāo)端是直接連接的TiDB-server,在停服務(wù)器維護(hù)之前需要對(duì)DM工具的Task任務(wù)進(jìn)行調(diào)整,停掉DM任務(wù)連接的TiDB-server節(jié)點(diǎn)會(huì)導(dǎo)致同步任務(wù)失敗。
tiup cluster stop tidb-test -N {grafanaIP}:3000
停alertmanager:
tiup cluster stop tidb-test -N {alertmanagerIP}:9093
tiup cluster stop tidb-test -N {prometheusIP}:9090
檢查集群狀態(tài),對(duì)應(yīng)的服務(wù)器的組件是否都完全停掉。
tiup cluster display tidb-test
檢查集群狀態(tài),是否都正常。
tiup cluster display tidb-test
修改 max-store-down-time 超過服務(wù)器維護(hù)時(shí)間,默認(rèn) 30 min,保證在服務(wù)器維護(hù)期間不發(fā)生補(bǔ)副本行為(需要注意維護(hù)完成后將參數(shù)恢復(fù)。)
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 config set max-store-down-time 30m // 默認(rèn)30分鐘
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/129344.html
摘要:作為一個(gè)開源的分布式數(shù)據(jù)庫產(chǎn)品,具有多副本強(qiáng)一致性的同時(shí)能夠根據(jù)業(yè)務(wù)需求非常方便的進(jìn)行彈性伸縮,并且擴(kuò)縮容期間對(duì)上層業(yè)務(wù)無感知。另外本身維護(hù)了數(shù)據(jù)多副本,這點(diǎn)和分布式文件系統(tǒng)的多副本是有重復(fù)的。 作者:鄧栓來源:細(xì)說云計(jì)算 作為一款定位在 Cloud-native 的數(shù)據(jù)庫,現(xiàn)如今 TiDB 在云整合上已取得了階段性的進(jìn)展。日前 Cloud TiDB 產(chǎn)品在 UCloud 平臺(tái)正式開啟...
摘要:截至年底,貝殼金服業(yè)務(wù)已覆蓋全國(guó)多個(gè)城市及地區(qū),為超過萬用戶提供了金融服務(wù)。老機(jī)房下線完成則表示數(shù)據(jù)遷移完成。機(jī)房遷移實(shí)施過程操作描述配置防火墻,將兩個(gè)機(jī)房所需端口開通。執(zhí)行下線命令,一次性下線所有舊機(jī)房的。跨機(jī)房遷移,網(wǎng)絡(luò)延遲不能高于。 作者介紹 :李振環(huán),貝殼金服數(shù)據(jù)基礎(chǔ)架構(gòu)負(fù)責(zé)人,目前負(fù)責(zé)數(shù)據(jù)平臺(tái)和企業(yè)級(jí)數(shù)據(jù)倉庫開發(fā)。 公司介紹 貝殼金服是專注居住場(chǎng)景的金融科技服務(wù)商,起步于2...
摘要:中國(guó)論壇提案征集月日截止論壇讓用戶開發(fā)人員從業(yè)人員匯聚一堂,面對(duì)面進(jìn)行交流合作。贊助方案出爐多元化獎(jiǎng)學(xué)金現(xiàn)正接受申請(qǐng)即將首次合體落地中國(guó) PingCAP將其TiDB數(shù)據(jù)庫平臺(tái)押注在云原生上 showImg(https://segmentfault.com/img/bVbogKp?w=508&h=477); 公司:PingCAP地點(diǎn):中國(guó)北京和加利福尼亞州圣馬特奧行業(yè):軟件 挑戰(zhàn) 流行的...
摘要:中國(guó)論壇提案征集月日截止論壇讓用戶開發(fā)人員從業(yè)人員匯聚一堂,面對(duì)面進(jìn)行交流合作。贊助方案出爐多元化獎(jiǎng)學(xué)金現(xiàn)正接受申請(qǐng)即將首次合體落地中國(guó) PingCAP將其TiDB數(shù)據(jù)庫平臺(tái)押注在云原生上 showImg(https://segmentfault.com/img/bVbogKp?w=508&h=477); 公司:PingCAP地點(diǎn):中國(guó)北京和加利福尼亞州圣馬特奧行業(yè):軟件 挑戰(zhàn) 流行的...
摘要:智能調(diào)度系統(tǒng)實(shí)時(shí)監(jiān)測(cè)集群所有計(jì)算節(jié)點(diǎn)計(jì)算存儲(chǔ)網(wǎng)絡(luò)等負(fù)載信息,作為虛擬機(jī)調(diào)度和管理的數(shù)據(jù)依據(jù)。當(dāng)有新的虛擬資源需要部署時(shí),調(diào)度系統(tǒng)會(huì)優(yōu)先選擇低負(fù)荷節(jié)點(diǎn)進(jìn)行部署,確保整個(gè)集群節(jié)點(diǎn)的負(fù)載。智能調(diào)度是 UCloudStack 平臺(tái)虛擬機(jī)資源調(diào)度管理的核心,由調(diào)度模塊負(fù)責(zé)調(diào)度任務(wù)的控制和管理,用于決策虛擬機(jī)運(yùn)行在哪一臺(tái)物理服務(wù)器上,同時(shí)管理虛擬機(jī)狀態(tài)及遷移計(jì)劃,保證虛擬機(jī)可用性和可靠性。智能調(diào)度系統(tǒng)實(shí)...
閱讀 1358·2023-01-11 13:20
閱讀 1707·2023-01-11 13:20
閱讀 1215·2023-01-11 13:20
閱讀 1907·2023-01-11 13:20
閱讀 4165·2023-01-11 13:20
閱讀 2759·2023-01-11 13:20
閱讀 1402·2023-01-11 13:20
閱讀 3673·2023-01-11 13:20