成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

深度神經(jīng)網(wǎng)絡(luò)的壓縮和正則化

blankyao / 1740人閱讀

摘要:深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決計算機視覺語音識別和自然語言處理等機器學(xué)習(xí)任務(wù)的較先進的技術(shù)。圖深度壓縮的實驗結(jié)果訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)可以被大量剪枝和壓縮的事實意味著我們當(dāng)前的訓(xùn)練方法具有一些局限性。

深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決計算機視覺、語音識別和自然語言處理等機器學(xué)習(xí)任務(wù)的較先進的技術(shù)。盡管如此,深度學(xué)習(xí)算法是計算密集型和存儲密集型的,這使得它難以被部署到只有有限硬件資源的嵌入式系統(tǒng)上。

為了解決這個限制,可以使用深度壓縮來顯著地減少神經(jīng)網(wǎng)絡(luò)所需要的計算和存儲需求。例如對于具有全連接層的卷積神經(jīng)網(wǎng)絡(luò)(如Alexnet和VGGnet),深度壓縮可以將模型大小減少35到49倍。即使對于全卷積神經(jīng)網(wǎng)絡(luò)(如GoogleNet和SqueezeNet),深度壓縮也可以將模型大小減少10倍。而且上述兩種壓縮情況都不會降低模型預(yù)測的精度。

當(dāng)前的訓(xùn)練方法有不足之處

壓縮模型而不丟失其較精確度意味著在訓(xùn)練好的模型中有嚴(yán)重的冗余,這說明當(dāng)前的訓(xùn)練方法有不足之處。為了解決這個問題,我和來自NVIDIA的JeffPool、百度的Sharan Narang和Facebook的Peter Vajda合作開發(fā)了“密集-稀疏-密集”(DSD)的訓(xùn)練方法。這是一種新的方法,它首先通過稀疏約束的優(yōu)化方法將模型正則化,然后通過恢復(fù)和重新訓(xùn)練被剪枝的連接的權(quán)重來提高預(yù)測精度。在測試時,由DSD訓(xùn)練得到的最終模型仍然跟原始密集型模型具有相同的架構(gòu)和維度,并且DSD訓(xùn)練不會增加任何推理開銷。我們對主流的神經(jīng)網(wǎng)絡(luò)(如CNN / RNN / LSTM)架構(gòu)用DSD訓(xùn)練方法進行了圖像分類、圖像描述和語音識別的實驗,發(fā)現(xiàn)模型有顯著的性能改進。

在本文中,我們會首先介紹深度壓縮,然后介紹“密集-稀疏-密集”(DSD)訓(xùn)練方法。

深度壓縮

深度壓縮的第一步是“突觸剪枝”。 人類大腦是有這一剪枝過程的。從嬰兒時期到成年,人腦會有5成的突觸會被修剪掉。

類似的規(guī)則是否適用于人工神經(jīng)網(wǎng)絡(luò)呢?答案是肯定的。在早期的工作中,網(wǎng)絡(luò)剪枝已經(jīng)被證明是一種減少網(wǎng)絡(luò)復(fù)雜度和過度擬合的有效方法。這種方法也適用于現(xiàn)代神經(jīng)網(wǎng)絡(luò)。首先我們通過常規(guī)神經(jīng)網(wǎng)絡(luò)訓(xùn)練來學(xué)習(xí)網(wǎng)絡(luò)連接權(quán)重。然后我們會剪枝權(quán)重值較小的連接:即刪除網(wǎng)絡(luò)中權(quán)重值低于某一閾值的所有連接。最后,我們重新訓(xùn)練網(wǎng)絡(luò),得到剩余稀疏連接的權(quán)重值。剪枝方法使AlexNet和VGG-16模型的參數(shù)數(shù)量分別減少了9倍和13倍。

圖1. 剪枝一個神經(jīng)網(wǎng)絡(luò)。所有圖片由Song Han 友情提供

深度壓縮的下一步是權(quán)重共享。我們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)對低精度權(quán)重值具有非常高的容忍度:極度粗略的權(quán)重值并不會降低預(yù)測精度。如圖2所示,藍(lán)色權(quán)重值最初為2.09、2.12、1.92和1.87,然后讓它們共享相同的權(quán)重值2,網(wǎng)絡(luò)的預(yù)測較精確度仍然不受影響。因此我們可以只存儲非常少量的權(quán)重值,稱之為“編碼本”。并讓許多其他權(quán)重共享這些相同的權(quán)重值,且只在碼本中存儲其索引即可。

索引可以用非常少的比特數(shù)來表示。例如在下圖中存在四種顏色,因此僅需要兩位來表示一個權(quán)重而不用原來的32位。另一方面,編碼本占用的存儲空間幾乎可以忽略不計。我們的實驗發(fā)現(xiàn),就權(quán)衡壓縮比和精度而言,這種權(quán)重共享技術(shù)是優(yōu)于線性量化的方法的。

圖2. 訓(xùn)練權(quán)重共享的神經(jīng)網(wǎng)絡(luò)

圖3顯示了使用深度壓縮的總體結(jié)果。Lenet-300-100和Lenet-5是在MNIST數(shù)據(jù)集上評估的,而AlexNet、VGGNet、GoogleNet和SqueezeNet是在ImageNet數(shù)據(jù)集上評估的。壓縮比從10倍到49倍不等。即使對于那些全卷積神經(jīng)網(wǎng)絡(luò)(如GoogleNet和SqueezeNet),深度壓縮仍然可以將它們壓縮一個數(shù)量級。我們重點看一下SqueezeNet,它比有相同預(yù)測精度的AlexNet少50倍的參數(shù),但仍然還可以再壓縮10倍使其模型大小只有470KB,這使它可以很容易地在片上SRAM里使用。而訪問SRAM比DRAM更快更節(jié)能。

我們還嘗試了其他壓縮方法,例如基于低秩近似的方法,但是壓縮比沒有那么高。你可以在Deep Compression的論文中找到完整的討論。

圖3 深度壓縮的實驗結(jié)果

DSD訓(xùn)練

深度神經(jīng)網(wǎng)絡(luò)可以被大量剪枝和壓縮的事實意味著我們當(dāng)前的訓(xùn)練方法具有一些局限性。它不能充分利用密集模型的全部容量來找到較佳局部最小值,而一個剪枝過的有著更少神經(jīng)突觸的稀疏模型也可以達(dá)到相同的精度。這帶來了一個問題:我們是否可以通過恢復(fù)并重新學(xué)習(xí)這些權(quán)重來達(dá)到更好的精度嗎?

讓我們拿奧運會田徑比賽的訓(xùn)練做個比喻。教練首先會讓跑步運動員在高海拔的山地上訓(xùn)練,那里會有很多的限制:低氧、寒冷等。結(jié)果當(dāng)跑步運動員再次返回平原地區(qū)時,他的速度就會有提高。對于神經(jīng)網(wǎng)絡(luò)來說也是相同的道理:給定嚴(yán)格約束的稀疏訓(xùn)練方法得到的網(wǎng)絡(luò)模型有跟密集網(wǎng)絡(luò)模型一樣的性能。一旦你解除了這些約束,模型可以工作得更好。

理論上,以下是DSD訓(xùn)練能行之有效的因素:

1.避開鞍點:

優(yōu)化深度網(wǎng)絡(luò)較大的困難之一是鞍點的擴散。 DSD訓(xùn)練方法通過剪枝和重新密集化的框架來避開鞍點。對收斂的模型做剪枝干擾了模型學(xué)習(xí)的模式并使得網(wǎng)絡(luò)模型能夠避開鞍點,這使模型有機會可以收斂到一個更好的局部或全局最小值。這個想法也跟“模擬退火”算法類似。雖然模擬退火算法在搜索圖上隨著概率降低而隨機跳躍,但是DSD訓(xùn)練方法會確定性的偏離收斂值。這一收斂值是通過在第一次密集模型訓(xùn)練階段中去除小權(quán)重值和增強稀疏支持得到的。

2.正規(guī)化和稀疏訓(xùn)練:

稀疏訓(xùn)練步驟中的稀疏正規(guī)化將模型優(yōu)化降維到較低維空間,在這個空間中的損失函數(shù)表面更平滑并且對噪聲更魯棒。很多數(shù)值實驗證實了稀疏訓(xùn)練和最終DSD方法可以降低方差和減少誤差。

3. 強大的重新初始化:

權(quán)重初始化在深度學(xué)習(xí)中起著重要的作用。傳統(tǒng)的訓(xùn)練方法只有一次初始化的機會,而DSD方法在訓(xùn)練過程中給模型優(yōu)化第二次(或更多)的機會。它基于更魯棒的稀疏訓(xùn)練結(jié)果來重新初始化。我們基于稀疏模型結(jié)果來重新構(gòu)建密集網(wǎng)絡(luò),這可以理解為剪枝權(quán)重的零初始化。其它的初始化方法也值得嘗試。

4. 打破對稱性:

隱藏單元的置換對稱性會使權(quán)重對稱,因此在訓(xùn)練中容易相互影響。在DSD方法中,權(quán)重剪枝打破了與權(quán)重相關(guān)的隱藏單元的對稱性,而且在最終的密集模型中是不對稱的。

我們在幾個主流的CNN/RNN/LSTM模型上進行了圖像分類、圖像描述和語音識別數(shù)據(jù)集的實驗,發(fā)現(xiàn)這種“密集-稀疏-密集”的訓(xùn)練流程能夠顯著地提高模型精度。我們的DSD訓(xùn)練方法采用了三個步驟:密集,稀疏,密集。圖4展示了每個步驟。

圖4 密集-稀疏-密集的訓(xùn)練流程

1.初始的密集訓(xùn)練:

第一個“密集”步驟通過在密集網(wǎng)絡(luò)上的常規(guī)網(wǎng)絡(luò)訓(xùn)練來學(xué)習(xí)連接權(quán)重。然而跟傳統(tǒng)訓(xùn)練不同的是,該“密集”步驟的目的不是學(xué)習(xí)連接權(quán)重的最終值,而是學(xué)習(xí)哪些連接是重要的。

2. 稀疏訓(xùn)練:

“稀疏”步驟會剪枝掉權(quán)重值較低的連接并重新訓(xùn)練稀疏網(wǎng)絡(luò)。我們對試驗中的所有層都使用相同的稀疏度,因此會有一個單一的超參數(shù):稀疏度(sparsity)。我們對每一層的參數(shù)進行排序,從網(wǎng)絡(luò)中去掉最小的N* sparsity個稀疏參數(shù),將密集網(wǎng)絡(luò)轉(zhuǎn)換為稀疏網(wǎng)絡(luò)。我們發(fā)現(xiàn)稀疏比率為50%-70%的效果非常好。然后我們重新訓(xùn)練稀疏網(wǎng)絡(luò),這可以在稀疏約束下完全復(fù)原模型的精度。

3. 最終的密集訓(xùn)練:

最后的“密集”步驟會恢復(fù)已剪枝的連接,使網(wǎng)絡(luò)再次變的密集。這些之前剪枝的連接會初始化為零并重新訓(xùn)練?;謴?fù)被剪枝的連接增加了網(wǎng)絡(luò)的維度,并且更多的參數(shù)更容易使網(wǎng)絡(luò)的鞍點向下滑動以獲得更好的局部最小值。

我們將DSD訓(xùn)練方法應(yīng)用于各種類型的神經(jīng)網(wǎng)絡(luò)和不同領(lǐng)域的數(shù)據(jù)集。 我們發(fā)現(xiàn)DSD訓(xùn)練方法提高了所有這些神經(jīng)網(wǎng)絡(luò)的較精確度。 神經(jīng)網(wǎng)絡(luò)選自CNN、RNN和LSTM;數(shù)據(jù)集是從圖像分類、語音識別和圖像描述領(lǐng)域中選擇的, 結(jié)果如圖5所示。DSD模型可以在DSD Model Zoo上下載。

圖 5. DSD訓(xùn)練提高了預(yù)測精度

生成圖像描述

我們把在圖像描述任務(wù)中使用DSD訓(xùn)練方法的效果做了可視化(見圖6)。我們把DSD訓(xùn)練方法應(yīng)用于NeuralTalk中,NeuralTalk是一個用于生成圖像自然語言描述的長短時記憶模型(LSTM)?;鶞?zhǔn)模型不能很好的描述圖片1、4和5。例如圖片1,基準(zhǔn)模型將女孩錯誤地描述為男孩,并且把女孩的頭發(fā)錯誤地描述為巖墻。稀疏模型可以在圖片中識別出有一個女孩,而DSD模型可以進一步識別出秋千。

在第二張圖片中,DSD訓(xùn)練方法可以識別出運動員正在嘗試投籃,而基準(zhǔn)模型只能描述成運動員正在打球。值得注意的是稀疏模型有時比DSD 模型表現(xiàn)得更好。在最后一張圖片中,稀疏模型能夠正確地識別出泥潭,而DSD模型只能從背景中識別出森林。DSD訓(xùn)練方法的優(yōu)良性能不僅限于這些例子,此論文的附錄中提供了更多的由DSD訓(xùn)練方法生成的圖像描述結(jié)果。

圖6. DSD訓(xùn)練方法提高圖像描述的性能的可視化展現(xiàn)

稀疏模型的優(yōu)點

用于把深度神經(jīng)網(wǎng)絡(luò)壓縮為較小模型的深度壓縮和用于神經(jīng)網(wǎng)絡(luò)正則化的DSD訓(xùn)練方法都是利用模型稀疏性來實現(xiàn)更小的模型或者更高的預(yù)測精度的技術(shù)。除了模型大小和預(yù)測精度,我們還研究了可以利用稀疏性的其他兩個方面:速度和能耗,這超出了本文的討論范圍。讀者可以查看EIE論文作為進一步的參考。

Song Han

Song Han是斯坦福大學(xué)Bill Dally教授的5年級博士生。他專注于機器學(xué)習(xí)和計算機體系架構(gòu)的交叉領(lǐng)域的節(jié)能深度學(xué)習(xí)。Song提出的深度壓縮技術(shù)可以將較先進的卷積神經(jīng)網(wǎng)絡(luò)模型的大小壓縮10倍到49倍,也可以把SqueezeNet壓縮到只有470KB,這使得模型完全可用于片上SRAM上。他提出的DSD訓(xùn)練流程提高了很多神經(jīng)網(wǎng)絡(luò)的預(yù)測精度。他設(shè)計的EIE(高效推理引擎)是在壓縮的稀疏神經(jīng)網(wǎng)絡(luò)模型上直接推理的硬件架構(gòu)體系,這種引擎比GPU的速度提高了13倍而能耗降低了3000倍。他的工作已經(jīng)在TheNextPlatform、TechEmergence、Embedded Vision和O"Reilly上發(fā)表。并且他的論文獲得了ICLR’16的較佳論文獎。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4452.html

相關(guān)文章

  • LeCun 談深度學(xué)習(xí)技術(shù)局限及發(fā)展

    摘要:淺層結(jié)構(gòu)化預(yù)測方法有損失的條件隨機域,有的較大邊緣馬爾可夫網(wǎng)絡(luò)和隱支持向量機,有感知損失的結(jié)構(gòu)化感知深層結(jié)構(gòu)化預(yù)測圖變換網(wǎng)絡(luò)圖變換網(wǎng)絡(luò)深度學(xué)習(xí)上的結(jié)構(gòu)化預(yù)測該圖例展示了結(jié)構(gòu)化感知損失實際上,使用了負(fù)對數(shù)似然函數(shù)損失于年配置在支票閱讀器上。 卷積網(wǎng)絡(luò)和深度學(xué)習(xí)的動機:端到端的學(xué)習(xí)一些老方法:步長內(nèi)核,非共享的本地連接,度量學(xué)習(xí),全卷積訓(xùn)練深度學(xué)習(xí)缺少什么?基礎(chǔ)理論推理、結(jié)構(gòu)化預(yù)測記憶有效的監(jiān)督...

    LuDongWei 評論0 收藏0
  • 共享相關(guān)任務(wù)表征,一文讀懂深度神經(jīng)網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)

    摘要:為了使的思想更具體化,現(xiàn)在我們來看一下在深度神經(jīng)網(wǎng)絡(luò)中執(zhí)行多任務(wù)學(xué)習(xí)的兩種最常用的方法。圖深度神經(jīng)網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)的參數(shù)共享共享參數(shù)大大降低了過擬合的風(fēng)險。 目錄1.介紹2.動機3.兩種深度學(xué)習(xí) MTL 方法Hard 參數(shù)共享Soft 參數(shù)共享4.為什么 MTL 有效隱式數(shù)據(jù)增加注意力機制竊聽表征偏置正則化5.非神經(jīng)模型中的 MTL塊稀疏正則化學(xué)習(xí)任務(wù)的關(guān)系6.最近 MTL 的深度學(xué)習(xí)研究深度...

    developerworks 評論0 收藏0
  • 一文概覽深度學(xué)習(xí)中五大正則方法七大優(yōu)策略

    摘要:近來在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等深度模型在各種復(fù)雜的任務(wù)中表現(xiàn)十分優(yōu)秀。機器學(xué)習(xí)中最常用的正則化方法是對權(quán)重施加范數(shù)約束。 近來在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等深度模型在各種復(fù)雜的任務(wù)中表現(xiàn)十分優(yōu)秀。例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)這種由生物啟發(fā)而誕生的網(wǎng)絡(luò),它基于數(shù)學(xué)的卷積運算而能檢測大量的圖像特征,因此可用于解決多種圖像視覺應(yīng)用、目標(biāo)分類和語音識別等問題。但是,深層網(wǎng)絡(luò)...

    2shou 評論0 收藏0
  • 谷歌大腦發(fā)布GAN全景圖:看百家爭鳴生成對抗網(wǎng)絡(luò)

    摘要:近日,谷歌大腦發(fā)布了一篇全面梳理的論文,該研究從損失函數(shù)對抗架構(gòu)正則化歸一化和度量方法等幾大方向整理生成對抗網(wǎng)絡(luò)的特性與變體。他們首先定義了全景圖損失函數(shù)歸一化和正則化方案,以及最常用架構(gòu)的集合。 近日,谷歌大腦發(fā)布了一篇全面梳理 GAN 的論文,該研究從損失函數(shù)、對抗架構(gòu)、正則化、歸一化和度量方法等幾大方向整理生成對抗網(wǎng)絡(luò)的特性與變體。作者們復(fù)現(xiàn)了當(dāng)前較佳的模型并公平地對比與探索 GAN ...

    asoren 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<