一、故障原因分析
2016年10月11日,程序在通過(guò)批量任務(wù)進(jìn)行數(shù)據(jù)清理時(shí),產(chǎn)生大量的delete操作(100多張表同時(shí)并行進(jìn)行,且表上無(wú)索引),開(kāi)始時(shí)代理軟件的一個(gè)節(jié)點(diǎn),達(dá)到了切換條件,在未檢測(cè)從庫(kù)的情況下,自動(dòng)切換部分主從,導(dǎo)致主從數(shù)據(jù)混亂。后續(xù)其他代理軟件節(jié)點(diǎn)也在未檢測(cè)從庫(kù)情況下進(jìn)行自動(dòng)切換。至此整個(gè)集群數(shù)據(jù)混亂。
二、故障造成的影響
故障發(fā)生后,影響面兒較大。
三、架構(gòu)隱患
所有數(shù)據(jù)操作,都經(jīng)過(guò)代理軟件指向數(shù)據(jù)庫(kù)。代理軟件是否可靠,直接關(guān)系到后臺(tái)數(shù)據(jù)一致性。請(qǐng)確認(rèn)代理軟件是否存在如下隱患:
1、代理軟件故障切換時(shí),如主庫(kù)異?;蛑鲝难舆t過(guò)大,切換是否可靠。
2、代理軟件判斷當(dāng)前寫(xiě)操作位于主庫(kù)還是從庫(kù),是否可靠;
3、代理軟件高可用(主從同步和切換)是否可靠;
4、代理軟件是否能動(dòng)態(tài)加載其配置文件,如果部分配置項(xiàng)讀取異常,該軟件如何處理;
5、是否存在全局表,且代理軟件是否能夠滿足其全局表存在數(shù)據(jù)完全一致;
6、代理軟件是否可以跨片查詢,數(shù)據(jù)查詢是否存在異常 。
四、解決方案
(1)臨時(shí)解決方案
a) 不允許自動(dòng)切換主從,人工切換必須檢查從庫(kù)延遲;
b) 通過(guò)innobackupex恢復(fù)備庫(kù)。
(2)后續(xù)整改建議
a) 主從切換時(shí),必須先檢查從庫(kù)是否存在延遲(10s以內(nèi));
b) 定期優(yōu)化TopSql;
c) 實(shí)時(shí)檢測(cè)主從同步情況;
d) 建議拆分3套代理軟件對(duì)應(yīng)的底層數(shù)據(jù)庫(kù);
e) 增加數(shù)據(jù)庫(kù)監(jiān)控;
五、日常運(yùn)維
主要通過(guò)完善告警及加強(qiáng)日常巡檢來(lái)保障系統(tǒng)穩(wěn)定運(yùn)行。
(1)完善告警
日常監(jiān)控主要從線程連接信息、查詢性能相關(guān)信息、MySQL表、行信息、InnoDB相關(guān)信息、命中率、MySQL基本情況、從庫(kù)延遲情況等共計(jì)8類監(jiān)控項(xiàng),涉及監(jiān)控指標(biāo)100余項(xiàng)。詳細(xì)參考附件:
(2)日常巡檢
通過(guò)對(duì)mysql運(yùn)行狀態(tài)以及系統(tǒng)本身的細(xì)致檢查,發(fā)現(xiàn)mysql服務(wù)可能存在的問(wèn)題,提高mysql的性能,減少非計(jì)劃停機(jī)時(shí)間。
巡檢工作的主要內(nèi)容包括:
a) 主機(jī)以及操作系統(tǒng)運(yùn)行情況檢查
b) mysql的性能檢查以及瓶頸分析
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/130243.html
摘要:需要監(jiān)控的維度有登錄總數(shù)成功數(shù)失敗分類用戶地區(qū)版本號(hào)瀏覽器類型登錄來(lái)源服務(wù)所在機(jī)房等等。 引言在任何一家互聯(lián)網(wǎng)公司,不管其主營(yíng)業(yè)務(wù)是什么,都會(huì)有一套自己的賬號(hào)體系。賬號(hào)既是公司所有業(yè)務(wù)發(fā)展留下的最寶貴資產(chǎn),它可以用來(lái)衡量業(yè)務(wù)指標(biāo),例如日活、月活、留存等,同時(shí)也給不同業(yè)務(wù)線提供了大量潛在用戶,業(yè)務(wù)可以基于賬號(hào)來(lái)做用戶畫(huà)像,制定各自的發(fā)展路徑。因此,賬號(hào)服務(wù)的重要性不言而喻,同時(shí)美團(tuán)業(yè)務(wù)飛速發(fā)展...
摘要:一個(gè)熱門(mén)視頻直播間人數(shù)可能達(dá)到幾十萬(wàn)甚至上百萬(wàn)人,幾十萬(wàn)人發(fā)消息,幾十萬(wàn)人接收,流量相當(dāng)驚人,那么服務(wù)端要如何設(shè)計(jì)才能保證系統(tǒng)流暢本文作者將結(jié)合他在網(wǎng)易云信多年開(kāi)發(fā)的經(jīng)驗(yàn)進(jìn)行深度分析。網(wǎng)易云信至今已申請(qǐng)了余項(xiàng)專利,遠(yuǎn)超市場(chǎng)同類產(chǎn)品。 一個(gè)熱門(mén)視頻直播間人數(shù)可能達(dá)到幾十萬(wàn)甚至上百萬(wàn)人,幾十萬(wàn)人發(fā)消息,幾十萬(wàn)人接收,流量相當(dāng)驚人,那么服務(wù)端要如何設(shè)計(jì)才能保證系統(tǒng)流暢?本文作者將結(jié)合他在網(wǎng)易...
摘要:后端好書(shū)閱讀與推薦系列文章后端好書(shū)閱讀與推薦后端好書(shū)閱讀與推薦續(xù)后端好書(shū)閱讀與推薦續(xù)二后端好書(shū)閱讀與推薦續(xù)三這里依然記錄一下每本書(shū)的亮點(diǎn)與自己讀書(shū)心得和體會(huì),分享并求拍磚。然后又請(qǐng)求封鎖,當(dāng)釋放了上的封鎖之后,系統(tǒng)又批準(zhǔn)了的請(qǐng)求一直等待。 后端好書(shū)閱讀與推薦系列文章:后端好書(shū)閱讀與推薦后端好書(shū)閱讀與推薦(續(xù))后端好書(shū)閱讀與推薦(續(xù)二)后端好書(shū)閱讀與推薦(續(xù)三) 這里依然記錄一下每本書(shū)的...
摘要:后端好書(shū)閱讀與推薦系列文章后端好書(shū)閱讀與推薦后端好書(shū)閱讀與推薦續(xù)后端好書(shū)閱讀與推薦續(xù)二后端好書(shū)閱讀與推薦續(xù)三這里依然記錄一下每本書(shū)的亮點(diǎn)與自己讀書(shū)心得和體會(huì),分享并求拍磚。然后又請(qǐng)求封鎖,當(dāng)釋放了上的封鎖之后,系統(tǒng)又批準(zhǔn)了的請(qǐng)求一直等待。 后端好書(shū)閱讀與推薦系列文章:后端好書(shū)閱讀與推薦后端好書(shū)閱讀與推薦(續(xù))后端好書(shū)閱讀與推薦(續(xù)二)后端好書(shū)閱讀與推薦(續(xù)三) 這里依然記錄一下每本書(shū)的...
摘要:后端好書(shū)閱讀與推薦系列文章后端好書(shū)閱讀與推薦后端好書(shū)閱讀與推薦續(xù)后端好書(shū)閱讀與推薦續(xù)二后端好書(shū)閱讀與推薦續(xù)三這里依然記錄一下每本書(shū)的亮點(diǎn)與自己讀書(shū)心得和體會(huì),分享并求拍磚。然后又請(qǐng)求封鎖,當(dāng)釋放了上的封鎖之后,系統(tǒng)又批準(zhǔn)了的請(qǐng)求一直等待。 后端好書(shū)閱讀與推薦系列文章:后端好書(shū)閱讀與推薦后端好書(shū)閱讀與推薦(續(xù))后端好書(shū)閱讀與推薦(續(xù)二)后端好書(shū)閱讀與推薦(續(xù)三) 這里依然記錄一下每本書(shū)的...
閱讀 1360·2023-01-11 13:20
閱讀 1709·2023-01-11 13:20
閱讀 1215·2023-01-11 13:20
閱讀 1911·2023-01-11 13:20
閱讀 4167·2023-01-11 13:20
閱讀 2763·2023-01-11 13:20
閱讀 1403·2023-01-11 13:20
閱讀 3675·2023-01-11 13:20