摘要:而硬盤失效預(yù)測技術(shù),很大程度上可把這種非計(jì)劃性工作變?yōu)橛?jì)劃性工作,從而降低客戶的運(yùn)維成本。硬盤分為和兩大類,其失效預(yù)測技術(shù)也不同。在硬盤失效預(yù)測領(lǐng)域,我們用召回率和虛警率來衡量預(yù)測算法的結(jié)果。
背景
硬盤是存儲系統(tǒng)的最重要組件,其可靠性狀況在很大程度上影響了存儲系統(tǒng)的整體可靠性表現(xiàn)。雖然存儲系統(tǒng)使用了多種技術(shù)來處理硬盤失效,確保一定程度的硬盤失效不影響數(shù)據(jù)可靠性。但在實(shí)際生產(chǎn)環(huán)境中,多種因素(如腐蝕、震動或硬盤批次缺陷等)仍可能導(dǎo)致雙盤甚至多盤同時或在短時間內(nèi)相繼失效,影響用戶數(shù)據(jù)安全。顯而易見,如果能預(yù)測硬盤失效的概率,并做提前預(yù)防,可大大提升用戶數(shù)據(jù)的可靠性。
同時,當(dāng)硬盤失效后,運(yùn)維人員需要盡快執(zhí)行數(shù)據(jù)備份和換盤等操作。通常而言,這些操作屬于非計(jì)劃性工作,會顯著增加數(shù)據(jù)中心運(yùn)維人員的工作負(fù)擔(dān)。而硬盤失效預(yù)測技術(shù),很大程度上可把這種非計(jì)劃性工作變?yōu)橛?jì)劃性工作,從而降低客戶的運(yùn)維成本。
硬盤分為SSD和HDD兩大類,其失效預(yù)測技術(shù)也不同。SSD可通過擦寫次數(shù)進(jìn)行壽命預(yù)估,實(shí)現(xiàn)難度相對不高。而HDD的機(jī)械器件眾多,系統(tǒng)精密度高,其失效模型非常復(fù)雜,我們很難用簡單的算法預(yù)測其失效概率。隨著人工智能技術(shù)的成熟,如何利用機(jī)器學(xué)習(xí)等技術(shù)對HDD進(jìn)行失效預(yù)測,是存儲陣列可靠性領(lǐng)域的一個重要創(chuàng)新方向。
?
預(yù)測算法的衡量指標(biāo)
在進(jìn)入算法設(shè)計(jì)前,我們需要首先定義一個算法的衡量指標(biāo)。在硬盤失效預(yù)測領(lǐng)域,我們用召回率(Recall)和虛警率(FAR:False Alarm Rate)來衡量預(yù)測算法的結(jié)果。其中,召回率是指算法識別出的失效硬盤占所有失效硬盤的百分比;而虛警率指失效預(yù)測算法識別出錯的百分比。顯而易見,過低的虛警率(當(dāng)我們把判定失效硬盤的條件設(shè)置得很嚴(yán)格時)將導(dǎo)致召回率降低(從而影響預(yù)測算法的有效性);而高的虛警率,將導(dǎo)致召回率的錯誤增高(從另一方面也影響算法的有效性)。
一個好的算法,需要在召回率和虛警率之間做取舍。當(dāng)不同的廠商或者用戶有不同的傾向時,預(yù)測模型的選擇也會有較大的差別。基于多年的存儲行業(yè)經(jīng)驗(yàn),我們定義了如下標(biāo)準(zhǔn):就多數(shù)用戶的使用場景而言,我們需要使得預(yù)測模型在虛警率盡量低(小于0.5%)的情況下召回率大于等于70%。
?
SATAHDD失效預(yù)測的實(shí)現(xiàn)原理
定義了硬盤失效預(yù)測的衡量指標(biāo)后,可以真正討論一下如何找到滿足指標(biāo)的預(yù)測模型。以SATA盤為例,其生產(chǎn)廠商會提供SMART (Self-Monitoring Analysisand Reporting Technology)信息,這些信息可以表征硬盤的運(yùn)行狀態(tài):如SMART 187反映了不能用ECC(Error-correcting code)糾正的讀請求計(jì)數(shù),當(dāng)這個值大于0時,硬盤則有可能出現(xiàn)了問題,需要更換。其它的SMART特征,如SMART 5(重分配扇區(qū)計(jì)數(shù))、SMART 188(命令超時)等也都是表征硬盤可能失效的重要指標(biāo)[1]。在[2]中展示了SMART 187與硬盤失效率的一張關(guān)系圖(該圖源自于Backblaze),如下所示。
SMART 187指標(biāo)與硬盤年失效率(AFR)的關(guān)系
可以看出,SMART 187確實(shí)在很大程度上與硬盤失效成相關(guān)性,當(dāng)SMART 187高于35時,硬盤失效率上漲很多。所以,有理由相信,通過分析和利用硬盤的SMART數(shù)據(jù),我們有可能訓(xùn)練出滿足評價(jià)指標(biāo)的SATA HDD失效預(yù)測模型。
?
如何訓(xùn)練模型?
雖然SMART 5 和 SMART 187等指標(biāo)對于SATA HDD的失效預(yù)測非常重要,但是基于HDD失效模式的復(fù)雜度,僅僅用這幾個指標(biāo)(機(jī)器學(xué)習(xí)中稱為特征-Feature)訓(xùn)練的模型是不能夠滿足要求的,所以我們需要選取盡可能多的特征來訓(xùn)練模型。但由于維度詛咒(Curse of Dimensionality,指選擇的特征過多反而會導(dǎo)致模型失效),我們不可能將所有的SMART特征值都作為模型輸入來訓(xùn)練模型,特別是SMART特征值中包括原始值和歸一化值等不同緯度的特征時。
另外,SMART屬性中并不是所有值都與硬盤失效有關(guān),甚至有些值與硬盤失效的關(guān)系跟人們的預(yù)計(jì)并不相符,例如下圖:
SMART 12與硬盤年失效率的關(guān)系
該圖仍來自[2],其中SMART 12代表硬盤上電次數(shù),與直覺相反的是,它的值與硬盤失效率并沒有正相關(guān)性。因?yàn)镾MART 12非常大的時候,硬盤失效率反而下降了。
所以,如何合理選擇合理的特征,并且有可能對這些特征進(jìn)行組合、轉(zhuǎn)換等操作生成新的特征以滿足模型訓(xùn)練的要求,這是硬盤失效預(yù)測模型訓(xùn)練的關(guān)鍵。下圖展示了當(dāng)特征選擇不恰當(dāng)時模型的輸出結(jié)果??梢钥闯鲈贔AR為0.5%時,Recall只有不到0.5,效果不甚理想:
一個特征選擇不恰當(dāng)?shù)哪P陀?xùn)練結(jié)果
在華為存儲實(shí)驗(yàn)室中,我們通過收集華為數(shù)據(jù)中心的大量硬盤信息,合理選擇了特征和算法,得到了如下模型的訓(xùn)練結(jié)果,可以看到,其效果已滿足我們對預(yù)測算法的目標(biāo)要求:
存儲實(shí)驗(yàn)室開發(fā)的硬盤失效預(yù)測模型效果
?
SAS HDD的失效預(yù)測
上文解釋了SATA HDD失效預(yù)測的原理,更進(jìn)一步的,我們還需要考慮如何預(yù)測SAS HDD的失效。SAS HDD的失效預(yù)測不能采用與SATA HDD相同的模型,除了在生產(chǎn)制造工藝等方面的不同外,一個主要原因是SAS接口并不能提供像SMART一樣的硬盤狀態(tài)特征。SAS HDD提供了所謂的SCSI Log Page,提供了諸如grown defect list、non-medium error、unrecovered read error、unrecovered write error和unrecovered verified error等信息,而這些信息很多是硬盤廠商檢查硬盤狀態(tài)后自己定義的結(jié)果。在模型訓(xùn)練過程中,我們發(fā)現(xiàn)這些值并不足以支撐足夠好的預(yù)測模型。因此,在SAS HDD的失效預(yù)測中,需要加入更詳細(xì)的診斷信息(如希捷的FARM:Field-Accessible Reliability Metrics Specification),以提供在SAS Log Page里缺失卻比較重要的硬盤特征,如SMART 7、SMART 188等等。因此在SAS HDD的失效預(yù)測中需要同時使用Log Page與FARM信息作為輸入數(shù)據(jù)特征。
?
華為eService系統(tǒng)的云端硬盤失效預(yù)測能力
可以看出,正確的選擇數(shù)據(jù)特征,使用合適的分類算法,合理的調(diào)節(jié)模型參數(shù)是一個成功的失效預(yù)測模型的關(guān)鍵。事實(shí)上,基于華為數(shù)據(jù)中心的海量機(jī)械盤數(shù)據(jù),華為存儲的云端智能運(yùn)維系統(tǒng)- eService已經(jīng)訓(xùn)練出HDD失效預(yù)測模型,并可以在近期提供云端的HDD失效預(yù)測能力。當(dāng)客戶數(shù)據(jù)中心硬盤狀態(tài)數(shù)據(jù)接入eService系統(tǒng),該系統(tǒng)會根據(jù)已有模型實(shí)時預(yù)測硬盤失效狀態(tài)并及時提醒客戶更換即將失效的硬盤,從而大幅提升客戶數(shù)據(jù)可靠性,降低運(yùn)維成本。
?
未來展望
雖然eService系統(tǒng)已經(jīng)提供HDD的失效預(yù)測的能力,但是這僅僅是開始。隨著接入eService的設(shè)備數(shù)量的上升,通過不斷優(yōu)化的訓(xùn)練過程,我們可以預(yù)期這個能力的較精確度會不斷提升,給用戶帶來更大的價(jià)值。
?
參考資料
[1]https://www.pcworld.com/article/3129275/hardware/these-5-smart-errors-help-you-predict-your-hard-drives-death.html
[2]https://www.computerworld.com/article/2846009/the-5-smart-stats-that-actually-predict-hard-drive-failure.html
歡迎加入本站公開興趣群軟件開發(fā)技術(shù)群
興趣范圍包括:Java,C/C++,Python,PHP,Ruby,shell等各種語言開發(fā)經(jīng)驗(yàn)交流,各種框架使用,外包項(xiàng)目機(jī)會,學(xué)習(xí)、培訓(xùn)、跳槽等交流
QQ群:26931708
Hadoop源代碼研究群
興趣范圍包括:Hadoop源代碼解讀,改進(jìn),優(yōu)化,分布式系統(tǒng)場景定制,與Hadoop有關(guān)的各種開源項(xiàng)目,總之就是玩轉(zhuǎn)Hadoop
QQ群:288410967
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/3956.html
摘要:從那個時候開始,我就開始用一些機(jī)器學(xué)習(xí)人工智能的技術(shù)來解決的運(yùn)維問題了,有不少智能運(yùn)維的嘗試,并發(fā)表了不少先關(guān)論文和專利。而處理海量高速多樣的數(shù)據(jù)并產(chǎn)生高價(jià)值,正是機(jī)器學(xué)習(xí)的專長。也就是說,采用機(jī)器學(xué)習(xí)技術(shù)是運(yùn)維的一個必然的走向。 大家上午好,非常榮幸,能有這個機(jī)會,跟這么多的運(yùn)維人一起交流智能運(yùn)維。最近這兩年運(yùn)維里面有一個很火的一個詞叫做AIOps(智能運(yùn)維)。我本人是老運(yùn)維了,在2000...
摘要:一大數(shù)據(jù)平臺介紹大數(shù)據(jù)平臺架構(gòu)演變?nèi)鐖D所示魅族大數(shù)據(jù)平臺架構(gòu)演變歷程年底,我們開始實(shí)踐大數(shù)據(jù),并部署了測試集群。因此,大數(shù)據(jù)運(yùn)維的目標(biāo)是以解決運(yùn)維復(fù)雜度的自動化為首要目標(biāo)。大數(shù)據(jù)運(yùn)維存在的問題大數(shù)據(jù)運(yùn)維存在的問題包括部署及運(yùn)維復(fù)雜。 一、大數(shù)據(jù)平臺介紹 1.1大數(shù)據(jù)平臺架構(gòu)演變 ?showImg(https://segmentfault.com/img/bVWDPj?w=1024&h=...
閱讀 1473·2021-09-30 09:57
閱讀 1483·2021-09-09 09:33
閱讀 2251·2021-09-04 16:40
閱讀 1815·2021-09-01 10:50
閱讀 3261·2021-09-01 10:31
閱讀 2552·2019-08-30 15:56
閱讀 2984·2019-08-30 15:44
閱讀 3488·2019-08-29 17:29