摘要:在當(dāng)前的背景下,卷積神經(jīng)網(wǎng)絡(luò)提出之后,深度成為人們要追求的目標(biāo)。同時(shí),殘差網(wǎng)絡(luò)也很好的解決了梯度下降中的梯度彌散的問(wèn)題。經(jīng)典網(wǎng)絡(luò)目前最主經(jīng)典的殘差網(wǎng)絡(luò)莫過(guò)于。
注:整理自各個(gè)博客,并且添加個(gè)人理解
隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展和普及,網(wǎng)絡(luò)深度和架構(gòu)研究早已經(jīng)成為人們常見的問(wèn)題,所以,現(xiàn)在卷積神經(jīng)網(wǎng)絡(luò)的趨勢(shì)發(fā)展趨勢(shì)就是:足夠深、足夠廣。足夠深就是網(wǎng)絡(luò)層數(shù)足夠深,足夠廣就意味著不能從傳統(tǒng)尺度來(lái)解決問(wèn)題,而應(yīng)該是多尺度,也就是multi-scale。
但是隨著網(wǎng)絡(luò)的深入,一些經(jīng)典的問(wèn)題也就隨之出現(xiàn),例如梯度彌散和梯度爆炸。這兩種問(wèn)題都是由于神經(jīng)網(wǎng)絡(luò)的特殊結(jié)構(gòu)和特殊求參數(shù)方法造成的,也就是鏈?zhǔn)角髮?dǎo)的間接產(chǎn)物。
梯度彌散:當(dāng)使用反向傳播方法計(jì)算導(dǎo)數(shù)的時(shí)候,隨著網(wǎng)絡(luò)的深度的增加,反向傳播的梯度(從輸出層到網(wǎng)絡(luò)的最初幾層)的幅度值會(huì)急劇地減小。結(jié)果就造成了整體的損失函數(shù)相對(duì)于最初幾層的權(quán)重的導(dǎo)數(shù)非常小。這樣,當(dāng)使用梯度下降法的時(shí)候,最初幾層的權(quán)重變化非常緩慢,以至于它們不能夠從樣本中進(jìn)行有效的學(xué)習(xí)。這種問(wèn)題通常被稱為“梯度的彌散”。
梯度爆炸:差梯度在網(wǎng)絡(luò)訓(xùn)練時(shí)被用來(lái)得到網(wǎng)絡(luò)參數(shù)更新的方向和幅度,進(jìn)而在正確的方向上以合適的幅度更新網(wǎng)絡(luò)參數(shù)。在深層網(wǎng)絡(luò)或遞歸神經(jīng)網(wǎng)絡(luò)中,誤差梯度在更新中累積得到一個(gè)非常大的梯度,這樣的梯度會(huì)大幅度更新網(wǎng)絡(luò)參數(shù),進(jìn)而導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定。在極端情況下,權(quán)重的值變得特別大,以至于結(jié)果會(huì)溢出(NaN值,無(wú)窮與非數(shù)值)。當(dāng)梯度爆炸發(fā)生時(shí),網(wǎng)絡(luò)層之間反復(fù)乘以大于1.0的梯度值使得梯度值成倍增長(zhǎng)。
這兩個(gè)不良影響也常常困擾著卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)者和使用者,也成為人們不得不思考的問(wèn)題。但是所幸的是,一些網(wǎng)絡(luò)的出現(xiàn)很好的解決了這些問(wèn)題。最近學(xué)習(xí)的Resnet就有效的解決了這個(gè)問(wèn)題。
Resnet在2015年提出之后,立馬獲得了當(dāng)年的Image圖像比賽第一名,并且準(zhǔn)確率奇高。
最初Resnet的提出目的并不是為了解決梯度彌散,有效的消除梯度彌散可以說(shuō)是無(wú)心之舉。在當(dāng)前的背景下,卷積神經(jīng)網(wǎng)絡(luò)提出之后,深度成為人們要追求的目標(biāo)。但是隨著層數(shù)增加,就出現(xiàn)了學(xué)習(xí)退化的問(wèn)題。
本來(lái)隨著網(wǎng)絡(luò)深度增加準(zhǔn)確率越來(lái)越好的網(wǎng)絡(luò)出現(xiàn)了詭異的變化,隨著后續(xù)的發(fā)現(xiàn),發(fā)現(xiàn)問(wèn)題主要來(lái)自于兩個(gè),第一個(gè)是恒等函數(shù)的問(wèn)題,第二個(gè)就是來(lái)自于梯度爆炸和梯度彌散的問(wèn)題。
深層網(wǎng)絡(luò)應(yīng)該優(yōu)于淺層網(wǎng)絡(luò),可以說(shuō)是所有人都認(rèn)同的的事實(shí),但是隨著網(wǎng)絡(luò)的加深,一些層通常是沒(méi)有必要出現(xiàn)的,如果訓(xùn)練好參數(shù)隨著后面的網(wǎng)絡(luò)擾動(dòng),會(huì)被類似于白噪音的問(wèn)題使參數(shù)重新偏移變差。因此,人們想到了恒等函數(shù),也就是說(shuō),直接在后面幾層使得F(x)=x,來(lái)進(jìn)行等效傳遞。但是問(wèn)題是,等效傳遞并不容易,更不用說(shuō)Sigmoid函數(shù)等特殊函數(shù)曲線的存在。因此,利用殘差塊,可以完美的解決這個(gè)問(wèn)題。
對(duì)于輸出函數(shù)變?yōu)榱薍(x),并且H(x)=F(x)+x。此時(shí),為了使得進(jìn)行恒等變換,只用使F(x)足夠小就可以了,此時(shí),輸出也就近似變成了H(x)=x。也就是說(shuō),假如優(yōu)化目標(biāo)函數(shù)是逼近一個(gè)恒等映射, 而不是0映射,那么學(xué)習(xí)找到對(duì)恒等映射的擾動(dòng)會(huì)比重新學(xué)習(xí)一個(gè)映射函數(shù)要容易。
同時(shí),殘差網(wǎng)絡(luò)也很好的解決了梯度下降中的梯度彌散的問(wèn)題。當(dāng)我們進(jìn)行鏈?zhǔn)角髮?dǎo),來(lái)求得某個(gè)參數(shù)的偏導(dǎo)數(shù)的時(shí)候,在深層網(wǎng)絡(luò)總會(huì)遇到偏導(dǎo)結(jié)果較小,從而導(dǎo)致參數(shù)更新過(guò)小的情況。
例如:
當(dāng)網(wǎng)絡(luò)足夠深的時(shí)候,會(huì)出一下Loss函數(shù):
從而使得偏導(dǎo)結(jié)果:
非常小,相當(dāng)于原地踏步。因此,當(dāng)進(jìn)行殘差塊的增添之后,偏導(dǎo)結(jié)果如下所示:
此時(shí),就不用再擔(dān)心梯度下降的相關(guān)問(wèn)題。并且與此同時(shí),函數(shù)的擬合F(x)=0會(huì)比F(x)=x更加容易,后者對(duì)參數(shù)的變化會(huì)更加敏感。總的來(lái)說(shuō),殘差學(xué)習(xí)再淺層的時(shí)候,學(xué)習(xí)是線性疊加,到深層后,F(xiàn)(x)會(huì)趨于零,從而使得殘差塊編程恒等映射,從而避免層數(shù)增加影響學(xué)習(xí)結(jié)果的情況。
經(jīng)典Resnet網(wǎng)絡(luò)
目前最主經(jīng)典的殘差網(wǎng)絡(luò)莫過(guò)于Resnet v2。由于ResNet的結(jié)構(gòu)有別于傳統(tǒng)的卷積結(jié)構(gòu),使得信號(hào)的前向傳播和梯度的反向傳播變得更復(fù)雜。為了穩(wěn)定訓(xùn)練時(shí)信號(hào)的前向傳播和梯度的反向傳播,從ResNet開始,網(wǎng)絡(luò)普遍使用Batch Normalization,因此,Resnet v2也采用了BN算法。
BN算法:我們?cè)谟?xùn)練深度學(xué)習(xí)模型的時(shí)候,經(jīng)常會(huì)采用隨機(jī)梯度下降的方式,每次隨機(jī)選取訓(xùn)練數(shù)據(jù)中的一個(gè)小部分進(jìn)行求訓(xùn)練模型,經(jīng)過(guò)多步迭代后會(huì)逐漸手鏈,模型的loss會(huì)逐漸趨于穩(wěn)定,但由于只是一部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練,還是會(huì)有一定起伏,一般訓(xùn)練誤差如下圖所示。
隨著神經(jīng)網(wǎng)絡(luò)的深度增加,也會(huì)出現(xiàn)梯度擴(kuò)散和梯度爆炸的問(wèn)題。
這里簡(jiǎn)單解釋一下梯度擴(kuò)散和梯度爆炸,隨著神經(jīng)網(wǎng)絡(luò)深度增加,每層計(jì)算誤差都會(huì)逐步縮小,這個(gè)主要跟我們選的激活函數(shù)有關(guān),鏈?zhǔn)椒▌t相乘之后,輸出層的很大的誤差,對(duì)前幾層帶來(lái)的影響會(huì)變得非常小,此時(shí)前幾層的梯度修正會(huì)非常小,梯度會(huì)趨于零,使得訓(xùn)練無(wú)效,這就是梯度消失gradient vanish,相反的則是梯度爆炸gradient explode。
改變激活函數(shù),比如說(shuō)ReLu可以較好地避免梯度的問(wèn)題,而這兩篇作者提出的batch normalization也可以解決這個(gè)問(wèn)題。
BN的主要思想就是對(duì)每層輸入數(shù)據(jù)做標(biāo)準(zhǔn)化,使其以較小的方差集中在均值附近,具體方法如下圖:
在正向傳播的時(shí)候?qū)斎霐?shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,求隨機(jī)梯度下降的一個(gè)batch進(jìn)行正規(guī)化可以大大減小計(jì)算量,同時(shí)作者為了避免數(shù)據(jù)整體影響,在最后還進(jìn)行了一個(gè)規(guī)模和位置的線性轉(zhuǎn)換,用以盡量保留原數(shù)據(jù)的方差與均值信息。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/19718.html
摘要:一個(gè)簡(jiǎn)單的解釋是,在論文和論文中,恒等映射的輸出被添加到下一個(gè)模塊,如果兩個(gè)層的特征映射有著非常不同的分布,那么這可能會(huì)阻礙信息流。 在 AlexNet [1] 取得 LSVRC 2012 分類競(jìng)賽冠軍之后,深度殘差網(wǎng)絡(luò)(Residual Network, 下文簡(jiǎn)寫為 ResNet)[2] 可以說(shuō)是過(guò)去幾年中計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)領(lǐng)域最具開創(chuàng)性的工作。ResNet 使訓(xùn)練數(shù)百甚至數(shù)千層成為可能...
摘要:和是兩個(gè)非常重要的網(wǎng)絡(luò),它們顯示了深層卷積神經(jīng)網(wǎng)絡(luò)的能力,并且指出使用極小的卷積核可以提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。也有工作考察與的關(guān)系,與其相似,本文考察了與的關(guān)系。與的網(wǎng)絡(luò)架構(gòu)配置以及復(fù)雜度見表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...
摘要:大神何愷明受到了質(zhì)疑。今天,上一位用戶對(duì)何愷明的提出質(zhì)疑,他認(rèn)為何愷明年的原始?xì)埐罹W(wǎng)絡(luò)的結(jié)果沒(méi)有被復(fù)現(xiàn),甚至何愷明本人也沒(méi)有。我認(rèn)為,的可復(fù)現(xiàn)性經(jīng)受住了時(shí)間的考驗(yàn)。 大神何愷明受到了質(zhì)疑。今天,Reddit 上一位用戶對(duì)何愷明的ResNet提出質(zhì)疑,他認(rèn)為:何愷明 2015 年的原始?xì)埐罹W(wǎng)絡(luò)的結(jié)果沒(méi)有被復(fù)現(xiàn),甚至何愷明本人也沒(méi)有。網(wǎng)友稱,他沒(méi)有發(fā)現(xiàn)任何一篇論文復(fù)現(xiàn)了原始 ResNet 網(wǎng)絡(luò)的...
摘要:顯示了殘差連接可以加速深層網(wǎng)絡(luò)的收斂速度,考察了殘差網(wǎng)絡(luò)中激活函數(shù)的位置順序,顯示了恒等映射在殘差網(wǎng)絡(luò)中的重要性,并且利用新的架構(gòu)可以訓(xùn)練極深層的網(wǎng)絡(luò)。包含恒等映射的殘差有助于訓(xùn)練極深層網(wǎng)絡(luò),但同時(shí)也是殘差網(wǎng)絡(luò)的一個(gè)缺點(diǎn)。 WRN Wide Residual NetworksSergey Zagoruyko, Nikos Komodakis Caffe實(shí)現(xiàn):https://github...
閱讀 1146·2019-08-30 12:44
閱讀 653·2019-08-29 13:03
閱讀 2562·2019-08-28 18:15
閱讀 2431·2019-08-26 10:41
閱讀 3092·2019-08-26 10:28
閱讀 3040·2019-08-23 16:54
閱讀 1992·2019-08-23 15:16
閱讀 817·2019-08-23 14:55