關(guān)于Resnet殘差網(wǎng)絡(luò)的一些理解

antyiwei 發(fā)布于2019-06-26 18:22 / 2167人閱讀

摘要：在當(dāng)前的背景下，卷積神經(jīng)網(wǎng)絡(luò)提出之后，深度成為人們要追求的目標(biāo)。同時(shí)，殘差網(wǎng)絡(luò)也很好的解決了梯度下降中的梯度彌散的問(wèn)題。經(jīng)典網(wǎng)絡(luò)目前最主經(jīng)典的殘差網(wǎng)絡(luò)莫過(guò)于。

注：整理自各個(gè)博客，并且添加個(gè)人理解
隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展和普及，網(wǎng)絡(luò)深度和架構(gòu)研究早已經(jīng)成為人們常見的問(wèn)題，所以，現(xiàn)在卷積神經(jīng)網(wǎng)絡(luò)的趨勢(shì)發(fā)展趨勢(shì)就是：足夠深、足夠廣。足夠深就是網(wǎng)絡(luò)層數(shù)足夠深，足夠廣就意味著不能從傳統(tǒng)尺度來(lái)解決問(wèn)題，而應(yīng)該是多尺度，也就是multi-scale。
但是隨著網(wǎng)絡(luò)的深入，一些經(jīng)典的問(wèn)題也就隨之出現(xiàn)，例如梯度彌散和梯度爆炸。這兩種問(wèn)題都是由于神經(jīng)網(wǎng)絡(luò)的特殊結(jié)構(gòu)和特殊求參數(shù)方法造成的，也就是鏈?zhǔn)角髮?dǎo)的間接產(chǎn)物。

梯度彌散：當(dāng)使用反向傳播方法計(jì)算導(dǎo)數(shù)的時(shí)候，隨著網(wǎng)絡(luò)的深度的增加，反向傳播的梯度（從輸出層到網(wǎng)絡(luò)的最初幾層）的幅度值會(huì)急劇地減小。結(jié)果就造成了整體的損失函數(shù)相對(duì)于最初幾層的權(quán)重的導(dǎo)數(shù)非常小。這樣，當(dāng)使用梯度下降法的時(shí)候，最初幾層的權(quán)重變化非常緩慢，以至于它們不能夠從樣本中進(jìn)行有效的學(xué)習(xí)。這種問(wèn)題通常被稱為“梯度的彌散”。
梯度爆炸：差梯度在網(wǎng)絡(luò)訓(xùn)練時(shí)被用來(lái)得到網(wǎng)絡(luò)參數(shù)更新的方向和幅度，進(jìn)而在正確的方向上以合適的幅度更新網(wǎng)絡(luò)參數(shù)。在深層網(wǎng)絡(luò)或遞歸神經(jīng)網(wǎng)絡(luò)中，誤差梯度在更新中累積得到一個(gè)非常大的梯度，這樣的梯度會(huì)大幅度更新網(wǎng)絡(luò)參數(shù)，進(jìn)而導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定。在極端情況下，權(quán)重的值變得特別大，以至于結(jié)果會(huì)溢出（NaN值，無(wú)窮與非數(shù)值）。當(dāng)梯度爆炸發(fā)生時(shí)，網(wǎng)絡(luò)層之間反復(fù)乘以大于1.0的梯度值使得梯度值成倍增長(zhǎng)。

這兩個(gè)不良影響也常常困擾著卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)者和使用者，也成為人們不得不思考的問(wèn)題。但是所幸的是，一些網(wǎng)絡(luò)的出現(xiàn)很好的解決了這些問(wèn)題。最近學(xué)習(xí)的Resnet就有效的解決了這個(gè)問(wèn)題。
Resnet在2015年提出之后，立馬獲得了當(dāng)年的Image圖像比賽第一名，并且準(zhǔn)確率奇高。

最初Resnet的提出目的并不是為了解決梯度彌散，有效的消除梯度彌散可以說(shuō)是無(wú)心之舉。在當(dāng)前的背景下，卷積神經(jīng)網(wǎng)絡(luò)提出之后，深度成為人們要追求的目標(biāo)。但是隨著層數(shù)增加，就出現(xiàn)了學(xué)習(xí)退化的問(wèn)題。

本來(lái)隨著網(wǎng)絡(luò)深度增加準(zhǔn)確率越來(lái)越好的網(wǎng)絡(luò)出現(xiàn)了詭異的變化，隨著后續(xù)的發(fā)現(xiàn)，發(fā)現(xiàn)問(wèn)題主要來(lái)自于兩個(gè)，第一個(gè)是恒等函數(shù)的問(wèn)題，第二個(gè)就是來(lái)自于梯度爆炸和梯度彌散的問(wèn)題。
深層網(wǎng)絡(luò)應(yīng)該優(yōu)于淺層網(wǎng)絡(luò)，可以說(shuō)是所有人都認(rèn)同的的事實(shí)，但是隨著網(wǎng)絡(luò)的加深，一些層通常是沒(méi)有必要出現(xiàn)的，如果訓(xùn)練好參數(shù)隨著后面的網(wǎng)絡(luò)擾動(dòng)，會(huì)被類似于白噪音的問(wèn)題使參數(shù)重新偏移變差。因此，人們想到了恒等函數(shù)，也就是說(shuō)，直接在后面幾層使得F(x)=x，來(lái)進(jìn)行等效傳遞。但是問(wèn)題是，等效傳遞并不容易，更不用說(shuō)Sigmoid函數(shù)等特殊函數(shù)曲線的存在。因此，利用殘差塊，可以完美的解決這個(gè)問(wèn)題。

對(duì)于輸出函數(shù)變?yōu)榱薍(x),并且H(x)=F(x)+x。此時(shí)，為了使得進(jìn)行恒等變換，只用使F(x)足夠小就可以了，此時(shí)，輸出也就近似變成了H(x)=x。也就是說(shuō)，假如優(yōu)化目標(biāo)函數(shù)是逼近一個(gè)恒等映射, 而不是0映射，那么學(xué)習(xí)找到對(duì)恒等映射的擾動(dòng)會(huì)比重新學(xué)習(xí)一個(gè)映射函數(shù)要容易。
同時(shí)，殘差網(wǎng)絡(luò)也很好的解決了梯度下降中的梯度彌散的問(wèn)題。當(dāng)我們進(jìn)行鏈?zhǔn)角髮?dǎo)，來(lái)求得某個(gè)參數(shù)的偏導(dǎo)數(shù)的時(shí)候，在深層網(wǎng)絡(luò)總會(huì)遇到偏導(dǎo)結(jié)果較小，從而導(dǎo)致參數(shù)更新過(guò)小的情況。
例如:

當(dāng)網(wǎng)絡(luò)足夠深的時(shí)候，會(huì)出一下Loss函數(shù)：

從而使得偏導(dǎo)結(jié)果：

非常小，相當(dāng)于原地踏步。因此，當(dāng)進(jìn)行殘差塊的增添之后，偏導(dǎo)結(jié)果如下所示：

此時(shí)，就不用再擔(dān)心梯度下降的相關(guān)問(wèn)題。并且與此同時(shí)，函數(shù)的擬合F(x)=0會(huì)比F(x)=x更加容易，后者對(duì)參數(shù)的變化會(huì)更加敏感。總的來(lái)說(shuō)，殘差學(xué)習(xí)再淺層的時(shí)候，學(xué)習(xí)是線性疊加，到深層后，F(xiàn)(x)會(huì)趨于零，從而使得殘差塊編程恒等映射，從而避免層數(shù)增加影響學(xué)習(xí)結(jié)果的情況。

經(jīng)典Resnet網(wǎng)絡(luò)

目前最主經(jīng)典的殘差網(wǎng)絡(luò)莫過(guò)于Resnet v2。由于ResNet的結(jié)構(gòu)有別于傳統(tǒng)的卷積結(jié)構(gòu)，使得信號(hào)的前向傳播和梯度的反向傳播變得更復(fù)雜。為了穩(wěn)定訓(xùn)練時(shí)信號(hào)的前向傳播和梯度的反向傳播，從ResNet開始，網(wǎng)絡(luò)普遍使用Batch Normalization，因此，Resnet v2也采用了BN算法。
BN算法：我們?cè)谟?xùn)練深度學(xué)習(xí)模型的時(shí)候，經(jīng)常會(huì)采用隨機(jī)梯度下降的方式，每次隨機(jī)選取訓(xùn)練數(shù)據(jù)中的一個(gè)小部分進(jìn)行求訓(xùn)練模型，經(jīng)過(guò)多步迭代后會(huì)逐漸手鏈，模型的loss會(huì)逐漸趨于穩(wěn)定，但由于只是一部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練，還是會(huì)有一定起伏，一般訓(xùn)練誤差如下圖所示。

隨著神經(jīng)網(wǎng)絡(luò)的深度增加，也會(huì)出現(xiàn)梯度擴(kuò)散和梯度爆炸的問(wèn)題。

這里簡(jiǎn)單解釋一下梯度擴(kuò)散和梯度爆炸，隨著神經(jīng)網(wǎng)絡(luò)深度增加，每層計(jì)算誤差都會(huì)逐步縮小，這個(gè)主要跟我們選的激活函數(shù)有關(guān)，鏈?zhǔn)椒▌t相乘之后，輸出層的很大的誤差，對(duì)前幾層帶來(lái)的影響會(huì)變得非常小，此時(shí)前幾層的梯度修正會(huì)非常小，梯度會(huì)趨于零，使得訓(xùn)練無(wú)效，這就是梯度消失gradient vanish，相反的則是梯度爆炸gradient explode。

改變激活函數(shù)，比如說(shuō)ReLu可以較好地避免梯度的問(wèn)題，而這兩篇作者提出的batch normalization也可以解決這個(gè)問(wèn)題。

BN的主要思想就是對(duì)每層輸入數(shù)據(jù)做標(biāo)準(zhǔn)化，使其以較小的方差集中在均值附近，具體方法如下圖：

在正向傳播的時(shí)候?qū)斎霐?shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化，求隨機(jī)梯度下降的一個(gè)batch進(jìn)行正規(guī)化可以大大減小計(jì)算量，同時(shí)作者為了避免數(shù)據(jù)整體影響，在最后還進(jìn)行了一個(gè)規(guī)模和位置的線性轉(zhuǎn)換，用以盡量保留原數(shù)據(jù)的方差與均值信息。

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/19718.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

antyiwei

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

移動(dòng)端 h5開發(fā)相關(guān)內(nèi)容總結(jié)(三)

閱讀 1146·2019-08-30 12:44
前端資源收集整理

閱讀 653·2019-08-29 13:03
CSS基礎(chǔ)篇-- position屬性講解

閱讀 2562·2019-08-28 18:15
JS之繼承（ES5 & ES6）

閱讀 2431·2019-08-26 10:41
react開發(fā)vscode插件推薦

閱讀 3092·2019-08-26 10:28
每日 30 秒 ? 扼住焦點(diǎn)的喉嚨

閱讀 3040·2019-08-23 16:54
LeetCode18.四數(shù)之和 JavaScript

閱讀 1992·2019-08-23 15:16
js前端對(duì)表單的字段md5加密

閱讀 817·2019-08-23 14:55

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

關(guān)于Resnet殘差網(wǎng)絡(luò)的一些理解

相關(guān)文章

**一文簡(jiǎn)述ResNet及其多種變體**

**[ResNet系] 006 DPN**

**經(jīng)典ResNet結(jié)果不能復(fù)現(xiàn)？何愷明回應(yīng)：它經(jīng)受住了時(shí)間的考驗(yàn)**

**[ResNet系] 004 WRN**

發(fā)表評(píng)論

0條評(píng)論

antyiwei

男|高級(jí)講師

TA的文章

移動(dòng)端 h5開發(fā)相關(guān)內(nèi)容總結(jié)(三)

前端資源收集整理

CSS基礎(chǔ)篇-- position屬性講解

JS之繼承（ES5 & ES6）

react開發(fā)vscode插件推薦

每日 30 秒 ? 扼住焦點(diǎn)的喉嚨

LeetCode18.四數(shù)之和 JavaScript

js前端對(duì)表單的字段md5加密

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

關(guān)于Resnet殘差網(wǎng)絡(luò)的一些理解

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！