摘要:讓自愈自動(dòng)化主動(dòng)機(jī)架維護(hù)原文作者翻譯時(shí)序預(yù)關(guān)閉這一步主要是保證目前池子中認(rèn)為是空閑的主機(jī)在主機(jī)級(jí)別關(guān)閉或批量操作期間交換多個(gè)主機(jī)時(shí)不會(huì)重新被加入到生產(chǎn)環(huán)境。
讓facebook自愈:自動(dòng)化主動(dòng)機(jī)架維護(hù) - 2
Making Facebook self-healing: Automating proactive rack maintenance
原文:https://code.fb.com/productio...
作者: Romain Komorn
翻譯: 時(shí)序
Pre-disable(預(yù)關(guān)閉): 這一步主要是保證目前池子中認(rèn)為是空閑的主機(jī)在主機(jī)級(jí)別關(guān)閉或批量操作期間交換多個(gè)主機(jī)時(shí)不會(huì)重新被加入到生產(chǎn)環(huán)境。
Host-level disable:(主機(jī)級(jí)關(guān)閉):在一些場(chǎng)景,由于在預(yù)關(guān)閉時(shí)已經(jīng)被批量關(guān)閉了所以這步?jīng)]有操作。在其他場(chǎng)景這一步會(huì)成為繼承FBAR的的主機(jī)級(jí)關(guān)閉邏輯的并行操作。
Post-disable(關(guān)閉后):這一步主要是用來確認(rèn)預(yù)關(guān)閉和主機(jī)級(jí)關(guān)閉成功完成。它也支持作者去檢查主機(jī)級(jí)關(guān)閉步驟的結(jié)果來決定是否要忽略特定的失敗類型如果它們?nèi)栽陬A(yù)期的閾值之下。
下面動(dòng)畫展示了這個(gè)過程:
啟用流程與關(guān)閉流程一樣: 預(yù)啟用,主機(jī)級(jí)啟動(dòng),啟用后。使用自動(dòng)化,我們可以安全的在機(jī)架或多個(gè)機(jī)架級(jí)執(zhí)行常規(guī)維護(hù),并可以最小化地影響其他的工程團(tuán)隊(duì)和使用Facebook的人。
與人交互:當(dāng)自動(dòng)化不可行(或失?。?/b>盡管我們的目標(biāo)是自動(dòng)化所有要在我們基礎(chǔ)設(shè)施上進(jìn)行的維護(hù)工作,有些時(shí)候還是需要人工接入來保證維護(hù)可以安全進(jìn)行。
起飛檢查失敗或沒有自動(dòng)化在一些場(chǎng)景,定時(shí)任務(wù)可能可能會(huì)影響很大一批服務(wù)器,起飛檢查會(huì)就拒絕自動(dòng)化執(zhí)行維護(hù)。我們的自動(dòng)化故意設(shè)置得比較保守,并在可能產(chǎn)生大范圍影響的時(shí)候使用手動(dòng)控制。在另外的情況,由于可靠性的原因或服務(wù)處于降級(jí)狀態(tài),此時(shí)自動(dòng)化還沒有被實(shí)現(xiàn)或者被暫時(shí)關(guān)閉,我們希望防止自動(dòng)化變更。
失敗自動(dòng)化盡管我們調(diào)用Aggregate Maintenance Handlers時(shí)有很高的成功率,還是有一些情況會(huì)出問題。當(dāng)故障發(fā)生時(shí),我們的維護(hù)進(jìn)程會(huì)通知服務(wù)的負(fù)責(zé)人自動(dòng)化失敗了。當(dāng)他們?nèi)斯ご_認(rèn)主機(jī)已經(jīng)被關(guān)閉了,維護(hù)動(dòng)作才允許繼續(xù)進(jìn)行。
混合自動(dòng)化與手工工作為了幫助協(xié)調(diào)自動(dòng)與手動(dòng)的進(jìn)行,我們開發(fā)了Dapper,一個(gè)被很多團(tuán)隊(duì)(如,數(shù)據(jù)中心團(tuán)隊(duì),技術(shù)經(jīng)理,基礎(chǔ)設(shè)施工程師,產(chǎn)品工程師)使用通過提供影響描述并用于調(diào)度維護(hù)工作的工具。
Dapper的維護(hù)執(zhí)行工作流如下:
我們從早期的自動(dòng)化單主機(jī)修復(fù)到機(jī)架和多機(jī)架學(xué)到了一些經(jīng)驗(yàn)。
關(guān)閉邏輯的串行執(zhí)行一次關(guān)閉一個(gè)主機(jī)有兩個(gè)不好的負(fù)面影響。第一是在維護(hù)期間可能在某個(gè)時(shí)間點(diǎn)引起容量不夠,導(dǎo)致維護(hù)工作需要被停止直到人工介入:
更差的是,當(dāng)服務(wù)的交換邏輯是在同機(jī)架上重用主機(jī)時(shí),我們可能會(huì)意外的將主機(jī)重新上線到生產(chǎn)環(huán)境,或最佳情況,進(jìn)入了無限循環(huán):
相對(duì)于一次單個(gè)執(zhí)行,并行進(jìn)行交換主機(jī)可以防止串行方式的一些問題,但會(huì)引入其他問題。最常見的問題是并行調(diào)用單機(jī)邏輯可能在獨(dú)立操作尋找替換主機(jī)時(shí)造成條件競(jìng)爭(zhēng),但聚合結(jié)果可能會(huì)造成服務(wù)容量不足:
Dapper和Aggregate Maintenance Handlers提供的框架已經(jīng)從物理維護(hù)工作,擴(kuò)展到包括軟件發(fā)布/內(nèi)核/BIOS/OS升級(jí)時(shí)關(guān)閉和啟用主機(jī)。
工作在Dapper的產(chǎn)品工程師對(duì)進(jìn)一步擴(kuò)大自動(dòng)化和開發(fā)工具幫助Facebook工程團(tuán)隊(duì)降低運(yùn)維工作的成本,幫助他們解決更大更有挑戰(zhàn)性的問題充滿激情。
了解更多 FBAR和Aggregate Maintenance Handlers的內(nèi)容,可以看這個(gè)演講。
本文來自微信公眾號(hào)「麥芽面包,id「darkjune_think」轉(zhuǎn)載請(qǐng)注明。
交流Email: [email protected]
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/73902.html
摘要:一個(gè)在內(nèi)存中保存靜態(tài)索引的緩存機(jī)器可以接受從負(fù)載均衡池中摘除時(shí)長(zhǎng)時(shí)間的網(wǎng)絡(luò)中斷。處理一次重啟需要主動(dòng)替換一個(gè)沒有被同一次維護(hù)影響的服務(wù)器。主機(jī)可以被從負(fù)載均衡池中移除,數(shù)據(jù)可以存儲(chǔ)在磁盤上,服務(wù)器也可以在重啟后快速追平復(fù)制進(jìn)度。 Making Facebook self-healing: Automating proactive rack maintenance 原文:https://...
摘要:年可以說是軟件定義數(shù)據(jù)中心的一年,大量自動(dòng)化和人工智能研發(fā)力量致力于打造下一代可擴(kuò)展的靈活的數(shù)據(jù)中心。年,致力在軟件定義數(shù)據(jù)中心占據(jù)一席之地,并將目標(biāo)瞄準(zhǔn)了在年之前實(shí)現(xiàn)軟件和支持收入億美元。公有云沒有扼殺數(shù)據(jù)中心,盡管有些人預(yù)測(cè)這會(huì)在2018年發(fā)生。不僅數(shù)據(jù)中心還在,而且服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)等數(shù)據(jù)中心基礎(chǔ)設(shè)施的全球支出正呈現(xiàn)蓬勃增長(zhǎng)的態(tài)勢(shì)。2018年可以說是軟件定義數(shù)據(jù)中心的一年,大量自動(dòng)化和...
閱讀 1343·2021-09-01 11:40
閱讀 3957·2021-08-05 10:03
閱讀 984·2019-08-30 15:54
閱讀 2826·2019-08-29 12:53
閱讀 3191·2019-08-29 12:23
閱讀 947·2019-08-26 13:45
閱讀 2288·2019-08-26 10:41
閱讀 2543·2019-08-23 16:44