成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

TiDB集群在線服務(wù)器停機(jī)維護(hù)主機(jī)資源

IT那活兒 / 667人閱讀
TiDB集群在線服務(wù)器停機(jī)維護(hù)主機(jī)資源

點(diǎn)擊上方“IT那活兒”公眾號(hào),關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了!??!


  
TiDB集群環(huán)境隨著業(yè)務(wù)的增長(zhǎng),現(xiàn)每臺(tái)虛擬服務(wù)器(8C+16G)資源已經(jīng)難以滿足業(yè)務(wù)需求,需對(duì)現(xiàn)有的虛擬服務(wù)器進(jìn)行縱向擴(kuò)容操作,將虛擬服務(wù)器資源擴(kuò)展到16C+32G。
生產(chǎn)環(huán)境集群混合部署如下:

由于TiDB-server層是無狀態(tài)服務(wù),并且有Haproxy進(jìn)行流量負(fù)載均衡,TiKV和PD層有Raft協(xié)議的高可用保障,停止單臺(tái)服務(wù)器進(jìn)行維護(hù)對(duì)整個(gè)集群運(yùn)行沒有太大影響,但是集群會(huì)存在有某些SQL訪問、在線DDL延遲抖動(dòng)的情況,總體影響不是太大。延遲抖動(dòng)主要有以下原因:

  • 存在TiKV層Leader region正好在停機(jī)維護(hù)的服務(wù)器上,從而出現(xiàn)Raft重新選擇Leader region,業(yè)務(wù)已經(jīng)在運(yùn)行期間部分SQL在訪問中由于找不到原Leader信息會(huì)出現(xiàn)Backoff的情況,從而SQL訪問伴隨有延遲的情況。
  • PD層Leader的轉(zhuǎn)移類似TiKV,TiDB-server層中owner轉(zhuǎn)移需重新選擇新owner會(huì)對(duì)正在執(zhí)行中DDL有影響。

在線停單臺(tái)服務(wù)器升級(jí)CPU、內(nèi)存的大致維護(hù)流程:
  • 在停單臺(tái)服務(wù)器進(jìn)行維護(hù)操作之前梳理DM同步到TiDB的任務(wù),確保同步不失敗。
  • 調(diào)整max-store-down-time參數(shù)(默認(rèn)30分鐘,如果停機(jī)時(shí)間超過30分鐘,建議調(diào)大此參數(shù))。
  • Tiup正常停止該節(jié)點(diǎn)的TiKV、PD、TiDB實(shí)例。
  • 服務(wù)器停機(jī)。
  • 服務(wù)器維護(hù)。
  • 服務(wù)器啟動(dòng)。
  • 啟動(dòng)該節(jié)點(diǎn)的TiKV、PD、TiDB實(shí)例。
  • 觀察Grafana PD相關(guān)的metric信息以及Dashboard訪問情況。
  • 應(yīng)用檢查業(yè)務(wù)使用情況。

停TiKV組件

通常情況下,線上集群對(duì) TiKV 的部署是單機(jī)單實(shí)例或者單機(jī)多實(shí)例,在對(duì)服務(wù)器做臨時(shí)維護(hù)時(shí),需要根據(jù)部署情況來進(jìn)行相應(yīng)的處理,由于現(xiàn)網(wǎng)為單機(jī)單實(shí)例只做對(duì)應(yīng)的描述;在實(shí)際維護(hù)中TiKV節(jié)點(diǎn)下線過程中Leader region調(diào)度對(duì)集群的服務(wù)影響很小,并且Leader region調(diào)度速度也較快。

注:以下運(yùn)維命令均為其他環(huán)境,實(shí)際需根據(jù)情況對(duì)應(yīng)進(jìn)行命令更新。

單機(jī)單實(shí)例臨時(shí)關(guān)機(jī)維護(hù)步驟:

  • 修改 max-store-down-time 超過服務(wù)器維護(hù)時(shí)間,默認(rèn) 30 min,保證在服務(wù)器維護(hù)期間不發(fā)生補(bǔ)副本行為(需要注意維護(hù)完成后將參數(shù)恢復(fù)。)

tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 config set max-store-down-time 60m // 
修改為60分鐘,根據(jù)實(shí)際情況而定
  • 檢查是否有 label,確保沒有標(biāo)簽(如果存在標(biāo)簽需要多帶帶分析是否為單機(jī)多實(shí)例的情況。)

tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 label

  • 檢查所有服務(wù)器上store的情況,找到該服務(wù)器的對(duì)應(yīng)的store id。
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 store
  • 遷移該服務(wù)器上所有 store 的 leader到其他節(jié)點(diǎn)。

tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 scheduler add evict-leader-scheduler 2 // 
把 store 2 上的所有 region 的 leader 從 store 2 調(diào)度出去
  • 檢查 leader 情況:

tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 store 2  // 
檢查該服務(wù)器所有 tikv 節(jié)點(diǎn)上的 leader count,leader count數(shù)量為 0 進(jìn)行下一步,否則等待為0
  • 停止Tikv組件:

tiup cluster stop tidb-test -N {TiKVIP}:20160

停PD組件

通常大多數(shù)的線上集群有3 或5個(gè)PD節(jié)點(diǎn),如果維護(hù)的服務(wù)器上有PD 組件,需要具體考慮節(jié)點(diǎn)是 leader 還是 follower(以下1 和 2 兩部分),關(guān)閉 follower 對(duì)集群運(yùn)行沒有任何影響,關(guān)閉 leader 需要先切換,并在切換時(shí)可能存在短暫性能抖動(dòng)。

1. 當(dāng)前服務(wù)器包括一個(gè) PD follower 節(jié)點(diǎn)且集群 PD 總數(shù) >= 3

  • 檢查當(dāng)前待操作 PD 集群節(jié)點(diǎn)信息:

tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member //顯示當(dāng)前所有成員
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader show //顯示當(dāng)前Leader成員
  • 停止當(dāng)前待操作 PD follower 節(jié)點(diǎn):

tiup cluster stop tidb-test -N {PDIP}:2379

2. 當(dāng)前服務(wù)器包括一個(gè) PD leader 節(jié)點(diǎn)且集群 PD 總數(shù) >= 3

  • 檢查當(dāng)前待操作 PD 集群節(jié)點(diǎn)信息:

tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member //顯示當(dāng)前所有成員
  • 檢查當(dāng)前待操作 PD 節(jié)點(diǎn)角色:

tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader show //顯示當(dāng)前l(fā)eader 的信息
  • 遷移 leader 節(jié)點(diǎn):

tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader transfer pd-id // 將 leader 遷移到指定成員pd-id
  • 檢查遷移結(jié)果:

tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader show
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member //顯示當(dāng)前所有成員,遷移成功進(jìn)行下一步,否則等待
  • 在待維護(hù)服務(wù)器上執(zhí)行停PD節(jié)點(diǎn):

tiup cluster stop tidb-test -N {PDIP}:2379
  • leader 遷回(可選):

tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader transfer pd-id // 將 leader 遷移到指定成員

停TiDB-server組件

一般情況下,線上使用TiDB會(huì)搭配負(fù)載均衡使用,在停掉Tidb-server組件之前需確定負(fù)載均衡是否需進(jìn)行對(duì)應(yīng)調(diào)整。

1. TiDB-server實(shí)例維護(hù)

停實(shí)例:
tiup cluster stop tidb-test -N {TiDBIP}:4000
2. 風(fēng)險(xiǎn)點(diǎn)
在進(jìn)行停止TiDB-server 節(jié)點(diǎn)時(shí),如果當(dāng)前節(jié)點(diǎn)為 owner 節(jié)點(diǎn)(curl http://{TiDBIP}:10080/info )且正在進(jìn)行 DDL 變更,直接停止TiDB-server節(jié)點(diǎn)會(huì)進(jìn)行新的 owner 選舉,DDL變更會(huì)變慢。另外如果當(dāng)前節(jié)點(diǎn)非 owner 節(jié)點(diǎn),在停掉之后有 DDL 操作時(shí),每個(gè)狀態(tài)變更時(shí)也會(huì)去訪問該下線的節(jié)點(diǎn),會(huì)對(duì)集群 DDL 操作有影響,因此盡量避免在臨時(shí)停止TiDB-server時(shí)以及期間進(jìn)行DDL操作

在實(shí)際生產(chǎn)環(huán)境中,TiDB集群經(jīng)常會(huì)和DM(數(shù)據(jù)同步工具)配合使用,在停單臺(tái)服務(wù)器進(jìn)行維護(hù)操作之前需認(rèn)真梳理DM同步到TiDB的任務(wù),如果DM工具的目標(biāo)端是直接連接的TiDB-server,在停服務(wù)器維護(hù)之前需要對(duì)DM工具的Task任務(wù)進(jìn)行調(diào)整,停掉DM任務(wù)連接的TiDB-server節(jié)點(diǎn)會(huì)導(dǎo)致同步任務(wù)失敗。

停grafana、alertmanager、prometheus

中控節(jié)點(diǎn)包含多個(gè)組件,在停服務(wù)器需添加如下組件操作:
  • 停grafana:
tiup cluster stop tidb-test -N {grafanaIP}:3000
  • 停alertmanager:

tiup cluster stop tidb-test -N {alertmanagerIP}:9093
  • 停止prometheus:

tiup cluster stop tidb-test -N {prometheusIP}:9090

關(guān)停服務(wù)器前檢查

  • 檢查集群狀態(tài),對(duì)應(yīng)的服務(wù)器的組件是否都完全停掉。

tiup cluster display tidb-test

停服務(wù)器升級(jí)CPU和內(nèi)存并重新啟動(dòng)。

啟動(dòng)服務(wù)器后檢查集群狀態(tài)

  • 檢查集群狀態(tài),是否都正常。

tiup cluster display tidb-test

所有節(jié)點(diǎn)都完成后調(diào)整參數(shù)

  • 修改 max-store-down-time 超過服務(wù)器維護(hù)時(shí)間,默認(rèn) 30 min,保證在服務(wù)器維護(hù)期間不發(fā)生補(bǔ)副本行為(需要注意維護(hù)完成后將參數(shù)恢復(fù)。)

tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 config set max-store-down-time 30m // 默認(rèn)30分鐘


本文作者:陳 聰(上海新炬王翦團(tuán)隊(duì))

本文來源:“IT那活兒”公眾號(hào)

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/129344.html

相關(guān)文章

  • Cloud + TiDB 技術(shù)解讀

    摘要:作為一個(gè)開源的分布式數(shù)據(jù)庫產(chǎn)品,具有多副本強(qiáng)一致性的同時(shí)能夠根據(jù)業(yè)務(wù)需求非常方便的進(jìn)行彈性伸縮,并且擴(kuò)縮容期間對(duì)上層業(yè)務(wù)無感知。另外本身維護(hù)了數(shù)據(jù)多副本,這點(diǎn)和分布式文件系統(tǒng)的多副本是有重復(fù)的。 作者:鄧栓來源:細(xì)說云計(jì)算 作為一款定位在 Cloud-native 的數(shù)據(jù)庫,現(xiàn)如今 TiDB 在云整合上已取得了階段性的進(jìn)展。日前 Cloud TiDB 產(chǎn)品在 UCloud 平臺(tái)正式開啟...

    JouyPub 評(píng)論0 收藏0
  • 貝殼金服 TiDB 在線跨機(jī)房遷移實(shí)踐

    摘要:截至年底,貝殼金服業(yè)務(wù)已覆蓋全國(guó)多個(gè)城市及地區(qū),為超過萬用戶提供了金融服務(wù)。老機(jī)房下線完成則表示數(shù)據(jù)遷移完成。機(jī)房遷移實(shí)施過程操作描述配置防火墻,將兩個(gè)機(jī)房所需端口開通。執(zhí)行下線命令,一次性下線所有舊機(jī)房的。跨機(jī)房遷移,網(wǎng)絡(luò)延遲不能高于。 作者介紹 :李振環(huán),貝殼金服數(shù)據(jù)基礎(chǔ)架構(gòu)負(fù)責(zé)人,目前負(fù)責(zé)數(shù)據(jù)平臺(tái)和企業(yè)級(jí)數(shù)據(jù)倉庫開發(fā)。 公司介紹 貝殼金服是專注居住場(chǎng)景的金融科技服務(wù)商,起步于2...

    Ashin 評(píng)論0 收藏0
  • CNCF案例研究:PingCAP

    摘要:中國(guó)論壇提案征集月日截止論壇讓用戶開發(fā)人員從業(yè)人員匯聚一堂,面對(duì)面進(jìn)行交流合作。贊助方案出爐多元化獎(jiǎng)學(xué)金現(xiàn)正接受申請(qǐng)即將首次合體落地中國(guó) PingCAP將其TiDB數(shù)據(jù)庫平臺(tái)押注在云原生上 showImg(https://segmentfault.com/img/bVbogKp?w=508&h=477); 公司:PingCAP地點(diǎn):中國(guó)北京和加利福尼亞州圣馬特奧行業(yè):軟件 挑戰(zhàn) 流行的...

    h9911 評(píng)論0 收藏0
  • CNCF案例研究:PingCAP

    摘要:中國(guó)論壇提案征集月日截止論壇讓用戶開發(fā)人員從業(yè)人員匯聚一堂,面對(duì)面進(jìn)行交流合作。贊助方案出爐多元化獎(jiǎng)學(xué)金現(xiàn)正接受申請(qǐng)即將首次合體落地中國(guó) PingCAP將其TiDB數(shù)據(jù)庫平臺(tái)押注在云原生上 showImg(https://segmentfault.com/img/bVbogKp?w=508&h=477); 公司:PingCAP地點(diǎn):中國(guó)北京和加利福尼亞州圣馬特奧行業(yè):軟件 挑戰(zhàn) 流行的...

    notebin 評(píng)論0 收藏0
  • 私有云怎么搭建之智能調(diào)度

    摘要:智能調(diào)度系統(tǒng)實(shí)時(shí)監(jiān)測(cè)集群所有計(jì)算節(jié)點(diǎn)計(jì)算存儲(chǔ)網(wǎng)絡(luò)等負(fù)載信息,作為虛擬機(jī)調(diào)度和管理的數(shù)據(jù)依據(jù)。當(dāng)有新的虛擬資源需要部署時(shí),調(diào)度系統(tǒng)會(huì)優(yōu)先選擇低負(fù)荷節(jié)點(diǎn)進(jìn)行部署,確保整個(gè)集群節(jié)點(diǎn)的負(fù)載。智能調(diào)度是 UCloudStack 平臺(tái)虛擬機(jī)資源調(diào)度管理的核心,由調(diào)度模塊負(fù)責(zé)調(diào)度任務(wù)的控制和管理,用于決策虛擬機(jī)運(yùn)行在哪一臺(tái)物理服務(wù)器上,同時(shí)管理虛擬機(jī)狀態(tài)及遷移計(jì)劃,保證虛擬機(jī)可用性和可靠性。智能調(diào)度系統(tǒng)實(shí)...

    ernest.wang 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<