摘要:運(yùn)維流程管理工具發(fā)布變更流程管理工具做為系統(tǒng)接口與其他角色的工作銜接。流程管理工具并不負(fù)責(zé)具體的業(yè)務(wù)操作的執(zhí)行,只是作為單據(jù)系統(tǒng)跟蹤流程和確保閉環(huán)。告警和突發(fā)管理工具體現(xiàn)業(yè)務(wù)受損的告警自動(dòng)建單管理。運(yùn)維事件數(shù)據(jù)庫(kù)記錄所有的告警。
運(yùn)維流程管理工具
發(fā)布變更流程管理工具:做為系統(tǒng)接口與其他角色的工作銜接。并提供審批環(huán)節(jié)控制發(fā)布變更的風(fēng)險(xiǎn)。流程管理工具并不負(fù)責(zé)具體的業(yè)務(wù)操作的執(zhí)行,只是作為單據(jù)系統(tǒng)跟蹤流程和確保閉環(huán)。
告警和突發(fā)管理工具:體現(xiàn)業(yè)務(wù)受損的告警自動(dòng)建單管理。人工確認(rèn)之后升級(jí)為突發(fā)單。通過(guò)建單管理告警和突發(fā)確保流程的閉環(huán),以及每次故障都能夠總結(jié)出經(jīng)驗(yàn),并未度量業(yè)務(wù)的可用性提供KPI。
運(yùn)維發(fā)布變更工具版本管理工具(數(shù)據(jù)庫(kù)):所有的發(fā)布應(yīng)該以版本管理為起點(diǎn)。研發(fā)給的版本包先入版本管理工具,再?gòu)陌姹竟芾砉ぞ叻职l(fā)到現(xiàn)網(wǎng)發(fā)布。杜絕 rsync 一臺(tái)服務(wù)器發(fā)布另外一臺(tái)的做法。
配置管理工具(數(shù)據(jù)庫(kù)):版本加配置等于現(xiàn)網(wǎng)每臺(tái)機(jī)器的狀態(tài)。最粗粒度的配置管理是到 IP 級(jí)別,相當(dāng)于對(duì)機(jī)器做資產(chǎn)管理,分組到不同的業(yè)務(wù),模塊和大區(qū)等業(yè)務(wù)概念上。細(xì)粒度一點(diǎn)會(huì)管理到進(jìn)程以及進(jìn)程的相關(guān)的配置。
配置和版本下發(fā)工具:把指定的版本,結(jié)合配置好的配置下發(fā)到現(xiàn)網(wǎng)的機(jī)器上。不同的版本和配置方式需要完全不同的下發(fā)方式。以 ssh/fabric 為代表的下發(fā)方式是以腳本為中心的。以 puppet/chef 為代表的下發(fā)方式是以配置為中心的。
現(xiàn)網(wǎng)狀態(tài)同步工具:為了規(guī)避現(xiàn)網(wǎng)狀態(tài)漂移,與管理工具內(nèi)的記錄不一致。需要有一個(gè)工具定時(shí)上報(bào)現(xiàn)網(wǎng)的實(shí)際狀況。
服務(wù)調(diào)度工具:發(fā)布變更經(jīng)常需要一個(gè)串行的流程,先做A模塊,再做B模塊。很多機(jī)器的時(shí)候,需要把能并發(fā)的操作并發(fā)執(zhí)行,不能并發(fā)的操作確保串行執(zhí)行。同時(shí)很多發(fā)布變更流程需要操作管理范圍外的服務(wù),比如云端的DNS服務(wù)器記錄等。這就需要有一個(gè)服務(wù)調(diào)度工具統(tǒng)一調(diào)度配置和版本下發(fā)工具,流程單據(jù)工具,以及其他系統(tǒng)的API接口共同組裝成一個(gè)流程。
資源管理和隔離工具:以xen/kvm為代表的工具讓運(yùn)維可以更靈活的切割資源。比如虛擬機(jī)的快速起停,ip在idc內(nèi)的漂移等。以 lxc/docker 為代表的工具讓運(yùn)維可以進(jìn)一步的切割資源到進(jìn)程級(jí)別。資源隔離代理的細(xì)粒度的資源控制可以獲得更好的資源利用率,以及更容易進(jìn)行可伸縮的資源配置。
發(fā)布變更統(tǒng)一界面:包裝所有的下層工具,提供簡(jiǎn)單的界面完成標(biāo)準(zhǔn)化的發(fā)布變更操作。
運(yùn)維監(jiān)控告警工具采集工具:一般是采集日志文件,也可以是定時(shí)輪詢 DB 或者其他系統(tǒng)的接口。流行的開(kāi)源方案是 logstash。
收集工具:采集工具上報(bào)給收集工具?;蛘哂砷_(kāi)發(fā)直接修改代碼上報(bào)指標(biāo)給收集工具。流程的開(kāi)源方案還是 logstash。
統(tǒng)計(jì)入庫(kù)工具:上報(bào)可能是每次調(diào)用就上報(bào)一次,統(tǒng)計(jì)工具負(fù)責(zé)統(tǒng)計(jì)出一分鐘內(nèi)的次數(shù)。上報(bào)也可能是每5秒上報(bào)一次數(shù)值,統(tǒng)計(jì)工具負(fù)責(zé)統(tǒng)計(jì)出一分鐘內(nèi)的最大值。統(tǒng)計(jì)工具的存在是為了上報(bào)的方便。流行的開(kāi)源方案是 statsd,也有大公司基于 storm 來(lái)做二次開(kāi)發(fā)的。
時(shí)間序列數(shù)據(jù)庫(kù):所有定時(shí)指標(biāo)會(huì)落地到數(shù)據(jù)庫(kù)里。監(jiān)控告警所需要的數(shù)據(jù)庫(kù)需要能夠支撐非常大的數(shù)據(jù)量,但是并沒(méi)有很嚴(yán)格的 ACID 要求。
運(yùn)維事件數(shù)據(jù)庫(kù):記錄所有的告警。包括從其他系統(tǒng)獲得告警,以及對(duì)現(xiàn)網(wǎng)的所有變更操作記錄。這些數(shù)據(jù)用于支撐告警的原因定位。
指標(biāo)異常檢測(cè)工具:基于數(shù)學(xué)模型發(fā)現(xiàn)指標(biāo)是否與過(guò)去的穩(wěn)定模式背離,而推測(cè)出現(xiàn)網(wǎng)狀態(tài)的變化。
撥測(cè)工具:定時(shí) PING 或者 HTTP GET,模擬實(shí)際用戶發(fā)現(xiàn)服務(wù)是否中斷,產(chǎn)生告警。同時(shí)也產(chǎn)生指標(biāo)上報(bào)給收集系統(tǒng)。撥測(cè)又分為本地?fù)軠y(cè),和遠(yuǎn)程撥測(cè)。本地?fù)軠y(cè)可以用于發(fā)現(xiàn)磁盤(pán)只讀等本機(jī)告警。遠(yuǎn)程撥測(cè)可以模擬用戶的地理分布,把網(wǎng)絡(luò)的鏈路狀況也包含在撥測(cè)覆蓋的范圍內(nèi)。
告警收斂工具:綜合所有來(lái)源的告警,進(jìn)行頻率收斂,根源分析。統(tǒng)一匯總成報(bào)告催促人工修復(fù)。
告警自動(dòng)修復(fù)工具:接受告警進(jìn)行自動(dòng)化的處理。幫運(yùn)維完成固定的故障機(jī)下架退庫(kù)等操作?;蛘咴跇I(yè)務(wù)本身沒(méi)有做高可用的情況下,做故障機(jī)替換,ip漂移等現(xiàn)網(wǎng)修復(fù)操作,一定程度地提高業(yè)務(wù)可用性。
告警通知工具:重要的告警需要升級(jí)為電話。需要有高可用的電話,短信,微信等通知接口。
監(jiān)控告警統(tǒng)一界面:屏蔽下層各種工具,提供統(tǒng)一的agent安裝,指標(biāo)采集設(shè)置,指標(biāo)曲線展示,告警查詢的界面。一個(gè)地方知道現(xiàn)網(wǎng)的所有的問(wèn)題。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/7931.html
摘要:導(dǎo)語(yǔ)鹿晗關(guān)曉彤公布戀情,造成微博服務(wù)短暫不可用。業(yè)務(wù)運(yùn)維團(tuán)隊(duì)負(fù)責(zé)業(yè)務(wù)的整體運(yùn)維,包括業(yè)務(wù)規(guī)劃架構(gòu)部署容災(zāi)演練節(jié)假日保障等整體協(xié)作性工作。 作者:李雄政,10年+ 證券、電信、互聯(lián)網(wǎng)領(lǐng)域開(kāi)發(fā)、系統(tǒng)集成、運(yùn)維經(jīng)驗(yàn)。 現(xiàn)任騰訊高級(jí)工程師,負(fù)責(zé)社交平臺(tái)業(yè)務(wù)運(yùn)維組管理工作。 導(dǎo)語(yǔ):鹿晗關(guān)曉彤公布戀情,造成微博服務(wù)短暫不可用。相關(guān)的運(yùn)維們也不得不提前結(jié)束國(guó)慶假期,執(zhí)行各種緊急擴(kuò)容預(yù)案。 而騰訊S...
摘要:只有當(dāng)超時(shí)故障扇區(qū)等明確故障項(xiàng)出現(xiàn)后,兩者關(guān)聯(lián)才確診硬盤(pán)故障,否則只是隔離觀察,不報(bào)修。如果存在進(jìn)程住時(shí)間超過(guò)分鐘,我們認(rèn)為這個(gè)硬盤(pán)故障的影響面已擴(kuò)大到了整機(jī),需要進(jìn)行重啟消除影響。 隨著阿里大數(shù)據(jù)產(chǎn)品業(yè)務(wù)的增長(zhǎng),服務(wù)器數(shù)量不斷增多,IT運(yùn)維壓力也成比例增大。各種軟、硬件故障而造成的業(yè)務(wù)中斷,成為穩(wěn)定性影響的重要因素之一。本文詳細(xì)解讀阿里如何實(shí)現(xiàn)硬件故障預(yù)測(cè)、服務(wù)器自動(dòng)下線、服務(wù)自愈以...
摘要:反正在阿里巴巴,很多的運(yùn)維人員都說(shuō)了,我們每年的工作中有一項(xiàng)不用寫(xiě)的工作就是搬遷。未來(lái)我們確實(shí)相信阿里巴巴,可能在未來(lái)搬遷會(huì)相對(duì)更少一點(diǎn),我們認(rèn)為不能讓搬遷成為阿里巴巴運(yùn)維團(tuán)隊(duì)的核心競(jìng)爭(zhēng)力。以上,正是阿里巴巴的運(yùn)維團(tuán)隊(duì)所覆蓋的五個(gè)領(lǐng)域。 隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)和 AI 技術(shù)的飛速發(fā)展,智能化運(yùn)維成為運(yùn)維的熱點(diǎn)領(lǐng)域。Gartner 的報(bào)告宣稱,到 2020 年,將近 50% 的企業(yè)將會(huì)在他們的業(yè)...
摘要:今天我將美團(tuán)點(diǎn)評(píng)這幾年在運(yùn)維方面做的一些工作,以及自己的思考與大家分享一下。所以在美團(tuán)點(diǎn)評(píng)給自己的使命,就是要把美團(tuán)點(diǎn)評(píng)的運(yùn)維做到騰訊百度的水平,把缺失的過(guò)程成長(zhǎng)的過(guò)程由自己做出來(lái)。美團(tuán)點(diǎn)評(píng)的自動(dòng)化工具講一下美團(tuán)點(diǎn)評(píng)的自動(dòng)化工具。 數(shù)人云當(dāng)西方的SRE遇上東方的互聯(lián)網(wǎng)Meetup第一彈實(shí)錄來(lái)啦! 本次分享嘉賓是美團(tuán)點(diǎn)評(píng)運(yùn)維中心高級(jí)總監(jiān)鐘紅軍,他向我們?cè)敿?xì)介紹了美團(tuán)點(diǎn)評(píng)近3年來(lái)在大規(guī)模運(yùn)...
閱讀 3622·2021-09-24 09:48
閱讀 1136·2021-09-10 10:51
閱讀 3309·2019-08-30 13:03
閱讀 3362·2019-08-30 12:51
閱讀 1419·2019-08-30 11:22
閱讀 1103·2019-08-29 18:38
閱讀 2077·2019-08-29 16:41
閱讀 3271·2019-08-29 15:32