基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的主機(jī)健康度預(yù)測

IT那活兒發(fā)布于2023-01-11 13:20 / 1963人閱讀

伴隨企業(yè)業(yè)務(wù)的不斷擴(kuò)大，業(yè)務(wù)IT支撐系統(tǒng)規(guī)模及平臺組件架構(gòu)數(shù)量對應(yīng)激增，其中作為基礎(chǔ)資源之一的主機(jī)數(shù)量也程指數(shù)級增加，與此同時業(yè)務(wù)對系統(tǒng)資源的需求和敏感度也伴隨業(yè)務(wù)規(guī)模的增加而越發(fā)的苛刻。運維團(tuán)隊對系統(tǒng)可用性的保障也如履薄冰，每一個可能的異常情況都應(yīng)該被及時發(fā)現(xiàn)，及時響應(yīng)，及時處理，以保障系統(tǒng)和服務(wù)的穩(wěn)定高效運行，給客戶良好的使用體驗。為了保障基礎(chǔ)資源之一主機(jī)的穩(wěn)定可靠，筆者對運行中的主機(jī)健康度做了基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的預(yù)測。

本次分享分為四個部分：

1、LSTM簡介

2、基本數(shù)據(jù)準(zhǔn)備

3、多元LSTM預(yù)測

4、模型優(yōu)化

LSTM簡介

隨著深度學(xué)習(xí)技術(shù)發(fā)展，相關(guān)深度學(xué)習(xí)模型逐漸被應(yīng)用到時序數(shù)據(jù)研究中。深度學(xué)習(xí)模型是擁有多個非線性映射層級的深度神經(jīng)網(wǎng)絡(luò)模型，對輸入信號逐層抽象并提取特征，挖掘出更深層次的潛在規(guī)律，以達(dá)到提前預(yù)知預(yù)警的效果。

眾多深度學(xué) 習(xí) 模型中，循環(huán) 神經(jīng) 網(wǎng) 絡(luò) ( ＲecurrentNeural Network，ＲNN) 將時序的概念引入到網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計中，使其在時序數(shù)據(jù)分析中表現(xiàn)出更強(qiáng)的適應(yīng)性。

ＲNN 變體中，長短期記憶( Long Short-Term Memory，LSTM) 模型彌補(bǔ)了ＲNN 的梯度消失、梯度爆炸和長期記憶能力不足等問題，使循環(huán)神經(jīng)網(wǎng)絡(luò)能夠真正有效地利用長距離的時序信息。

LSTM 模型在不同領(lǐng)域的時序數(shù)據(jù)研究中已有不少成功的應(yīng)用案例，包括文字語言相關(guān)的語言建模、語音識別、機(jī)器翻譯，多媒體相關(guān)的音頻和視頻數(shù)據(jù)分析、圖片標(biāo)題建模，道路運輸相關(guān)的交通流速預(yù)測，以及醫(yī)學(xué)相關(guān)的蛋白質(zhì)二級結(jié)構(gòu)序列預(yù)測等。

但在可靠性領(lǐng)域，LSTM 模型的應(yīng)用非常有限，尤其是對故障時間序列預(yù)測的相關(guān)問題研究，目前還未發(fā)現(xiàn)更多的案例。本文針對系統(tǒng)級故障時間序列數(shù)據(jù)，提出了一種基于 LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)的預(yù)測方法，該方法包括3 層( 輸入層、隱藏層和輸出層) 網(wǎng)絡(luò)結(jié)構(gòu)的詳細(xì)設(shè)計，以及網(wǎng)絡(luò)訓(xùn)練和網(wǎng)絡(luò)預(yù)測的具體實現(xiàn)算法等。在此基礎(chǔ)上，以預(yù)測誤差最小化為目標(biāo)，進(jìn)一步提出了基于多層網(wǎng)格搜索的 LSTM 預(yù)測模型參數(shù)優(yōu)選算法。

LSTM模型網(wǎng)絡(luò)拓?fù)?/span>

圖取自知乎LSTM神經(jīng)網(wǎng)絡(luò)輸入輸出究竟是怎樣的

基本數(shù)據(jù)準(zhǔn)備

例用數(shù)據(jù)采用某場地實時數(shù)據(jù)999條作為樣本數(shù)據(jù)進(jìn)行訓(xùn)練和測試。樣本中主要采集了四個現(xiàn)場的主機(jī)指標(biāo)數(shù)據(jù)（1分鐘系統(tǒng)負(fù)載、CPU使用率、等待CPU進(jìn)程個數(shù)、內(nèi)存利用率）。

對樣本進(jìn)行清洗后截取前6個樣本數(shù)據(jù)如下圖：

對數(shù)據(jù)進(jìn)行歸一化處理并對每個樣本數(shù)據(jù)行生成一個模擬健康度，將新樣本數(shù)保存到test_health.csv文件中。

新生成test_health.csv文件截取前6個樣本數(shù)據(jù)如下圖所示：

我們可以使用這些數(shù)據(jù)來構(gòu)建預(yù)測問題，在此數(shù)據(jù)基準(zhǔn)下，使用前幾個小時的主機(jī)指標(biāo)情況和健康度，依此預(yù)測下一個小時的主機(jī)指標(biāo)及健康度情況。

我們已經(jīng)以易于使用的形式獲得了數(shù)據(jù)，創(chuàng)建了每個系列的快速繪圖并查看所擁有的數(shù)據(jù)。

下面代碼加載新的“test_health.csv”文件，并將每個系列繪制為多帶帶的子圖。

運行示例將創(chuàng)建一個包含5個子圖的趨勢圖，顯示每個變量999個小時的數(shù)據(jù)。如下圖所示：

多元LSTM預(yù)測

LSTM數(shù)據(jù)準(zhǔn)備

第一步是為LSTM準(zhǔn)備主機(jī)數(shù)據(jù)集，將數(shù)據(jù)集構(gòu)建為有監(jiān)督的學(xué)習(xí)問題，并對輸入變量進(jìn)行歸一化。

考慮到前面時間步驟的主機(jī)指標(biāo)測量和主機(jī)健康度情況，我們將監(jiān)督學(xué)習(xí)問題設(shè)計為預(yù)測當(dāng)前小時（t）的主機(jī)健康度。

根據(jù)主機(jī)健康度情況和最近24小時的主機(jī)指標(biāo)情況，預(yù)測下一個小時的主機(jī)健康度情況。

如上預(yù)測下一個小時的主機(jī)健康度，并根據(jù)下一個小時的“預(yù)期”主機(jī)健康度狀況進(jìn)行預(yù)測。我們可以使用開發(fā)的series_to_supervised（）函數(shù)來轉(zhuǎn)換數(shù)據(jù)集。接下來，將所有特征標(biāo)準(zhǔn)化，然后將數(shù)據(jù)集轉(zhuǎn)換為監(jiān)督學(xué)習(xí)問題。

轉(zhuǎn)化監(jiān)督學(xué)習(xí)問題代碼：

我們在第一隱藏層中定義50個神經(jīng)元，在輸出層中定義1個神經(jīng)元來定義LSTM，以預(yù)測主機(jī)健康度。輸入形狀為1個時間步長，具有5個特征。我們使用平均絕對誤差（MAE）損失函數(shù)和隨機(jī)梯度下降的有效Adam版本。該模型將適合于50個訓(xùn)練周期，每批次的數(shù)量為72。請記住，每批結(jié)束時都會重置Keras中LSTM的內(nèi)部權(quán)重，因此，內(nèi)部狀態(tài)可能是幾天的函數(shù)，嘗試對此進(jìn)行測試，有助于模型的成熟度完善。最后，我們通過在fit（）函數(shù)中設(shè)置validate_data參數(shù)來跟蹤訓(xùn)練過程中的訓(xùn)練和測試損失。在運行結(jié)束時，繪制訓(xùn)練損失和測試損失。

定義和擬合模型

首先，我們必須將準(zhǔn)備好的數(shù)據(jù)集分為訓(xùn)練集和測試集。為了加快對本演示模型的訓(xùn)練，我們將僅在360的數(shù)據(jù)上擬合模型，然后在剩余639的數(shù)據(jù)上對其進(jìn)行評估。

下面的示例將數(shù)據(jù)集分為訓(xùn)練集和測試集，然后將訓(xùn)練集和測試集分為輸入和輸出變量。最后，將輸入（X）整形為LSTM期望的3D格式，即[樣本，時間步長，特征]。

運行此示例將打印訓(xùn)練數(shù)據(jù)以及測試輸入和輸出集，其中約有360個小時的數(shù)據(jù)用于訓(xùn)練，約有637小時的測試數(shù)據(jù)。

現(xiàn)在，我們可以定義和擬合我們的LSTM模型。

我們將在第一隱藏層中定義50個神經(jīng)元，在輸出層中定義1個神經(jīng)元來定義LSTM，以預(yù)測主機(jī)健康度。輸入形狀將是1個時間步長，具有5個特征。我們將使用平均絕對誤差（MAE）損失函數(shù)和隨機(jī)梯度下降的有效Adam版本。該模型將適合于50個訓(xùn)練周期，每批次的數(shù)量為72。請記住，每批結(jié)束時都會重置Keras中LSTM的內(nèi)部權(quán)重，因此，內(nèi)部狀態(tài)可能是幾天的函數(shù)，嘗試對此進(jìn)行測試，有助于模型的成熟度。最后，我們通過在fit（）函數(shù)中設(shè)置validate_data參數(shù)來跟蹤訓(xùn)練過程中的訓(xùn)練和測試損失。在運行結(jié)束時，繪制訓(xùn)練損失和測試損失。

評估模型

模型擬合后，我們可以預(yù)測整個測試數(shù)據(jù)集。我們將預(yù)測與測試數(shù)據(jù)集結(jié)合起來，然后換算比例。我們還使用預(yù)期的主機(jī)健康度對測試數(shù)據(jù)集進(jìn)行換算。利用原始比例的預(yù)測和實際值，我們可以為模型計算一個誤差分?jǐn)?shù)。在這種情況下，我們計算均方根誤差（RMSE），該均方根誤差與變量本身的單位相同。

首先運行示例創(chuàng)建一個圖，顯示訓(xùn)練期間的訓(xùn)練和測試損失。

我們需要對此模型進(jìn)行進(jìn)一步優(yōu)化。訓(xùn)練和測試損失在每個訓(xùn)練時期的末尾打印，以便于我們知道模型數(shù)據(jù)。運行結(jié)束時，將打印測試數(shù)據(jù)集上模型的最終RMSE。我們可以看到，該模型實現(xiàn)的RMSE 3.700

模型優(yōu)化

訓(xùn)練多個滯后時間步

首先，在調(diào)用series_to_supervised（）時必須適當(dāng)?shù)亟鉀Q問題。我們將使用3個小時的數(shù)據(jù)作為輸入。還要注意，我們不再將所有其他字段的列都明確地放在ob（t）處，我們在指定輸入和輸出列時需要更加小心。

我們的框架數(shù)據(jù)集中有3 * 5 + 5列。我們將使用3 * 5或15列作為前3個小時內(nèi)所有功能的obs的輸入。我們將預(yù)測下一個小時主機(jī)各個指標(biāo)作為輸出，如下所示：

接下來，我們可以正確地重塑輸入數(shù)據(jù)以反映時間步長和功能。.

此外，我們可以通過增大神經(jīng)元個數(shù)，及增大每個神經(jīng)元計算次數(shù)。來最大量減小優(yōu)化在神經(jīng)網(wǎng)絡(luò)傳遞時的加權(quán)值。如下圖所示：

其他變化是如何評估模型那？具體來說，在我們?nèi)绾沃貥?gòu)具有5列的行的過程中，這些行適合于反轉(zhuǎn)縮放操作以將y和yhat還原為原始比例，以便于我們計算RMSE。

更改的要點是我們將y或yhat列與測試數(shù)據(jù)集的后4個特征連接起來，以求反比例，如下所示：

運行優(yōu)化后，顯示訓(xùn)練期間的訓(xùn)練和測試損失，模型已不存在測試損失，損失降至訓(xùn)練損失以下，如下圖所示：

最后，打印出測試RMSE:

模型優(yōu)化完成！當(dāng)然最終此次分享只是參考！具體模型調(diào)優(yōu)還需要按照各位的各自業(yè)務(wù)進(jìn)行調(diào)優(yōu)操作！

思考題：

主機(jī)負(fù)載數(shù)據(jù)可能會存在周期化數(shù)據(jù)，比如正常業(yè)務(wù)系統(tǒng)存在忙時和閑時兩種狀態(tài)，如果上午十點為主機(jī)業(yè)務(wù)量最大時期（即主機(jī)系統(tǒng)忙時），那輸入數(shù)據(jù)是否要以前一天十點為輸入數(shù)據(jù)？

云服務(wù)器 GPU云服務(wù)器基于對象的網(wǎng)絡(luò)存儲基于網(wǎng)絡(luò)的入侵檢測基于神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像識別基于bp神經(jīng)網(wǎng)絡(luò)的圖像識別

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/130226.html

發(fā)表評論

登陸后可評論

0條評論

IT那活兒

男|高級講師

我要關(guān)注我要私信

TA的文章

消息中間件故障分析一例

閱讀 1356·2023-01-11 13:20
RAC雙節(jié)點crash回復(fù)一例

閱讀 1707·2023-01-11 13:20
ORA-600處理一例

閱讀 1215·2023-01-11 13:20
雙節(jié)點RAC實例2 HANG 故障分析一例

閱讀 1906·2023-01-11 13:20
RAC集群節(jié)點1重啟分析一例

閱讀 4165·2023-01-11 13:20
CRS啟動報錯CRS-1656處理分享

閱讀 2757·2023-01-11 13:20
oracle 12CR2打補(bǔ)丁報錯處理一例

閱讀 1402·2023-01-11 13:20
分布式緩存組件故障分析及監(jiān)控優(yōu)化

閱讀 3671·2023-01-11 13:20

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的主機(jī)健康度預(yù)測

圖取自知乎LSTM神經(jīng)網(wǎng)絡(luò)輸入輸出究竟是怎樣的

相關(guān)文章

一個基于TensorFlow的簡單故事生成案例：帶你了解LSTM

**從RNN到LSTM，性能良好的神經(jīng)網(wǎng)絡(luò)到底是如何工作的？**

**TensorFlow-Bitcoin-Robot:一個基于 TensorFlow LSTM 的 Bi**

**如果你還沒搞懂LSTM 網(wǎng)絡(luò)，那本文絕對值得一看**

發(fā)表評論

0條評論

IT那活兒

男|高級講師

TA的文章

消息中間件故障分析一例

RAC雙節(jié)點crash回復(fù)一例

ORA-600處理一例

雙節(jié)點RAC實例2 HANG 故障分析一例

RAC集群節(jié)點1重啟分析一例

CRS啟動報錯CRS-1656處理分享

oracle 12CR2打補(bǔ)丁報錯處理一例

分布式緩存組件故障分析及監(jiān)控優(yōu)化

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的主機(jī)健康度預(yù)測

圖取自知乎LSTM神經(jīng)網(wǎng)絡(luò)輸入輸出究竟是怎樣的

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！