摘要:顯示了殘差連接可以加速深層網(wǎng)絡(luò)的收斂速度,考察了殘差網(wǎng)絡(luò)中激活函數(shù)的位置順序,顯示了恒等映射在殘差網(wǎng)絡(luò)中的重要性,并且利用新的架構(gòu)可以訓(xùn)練極深層的網(wǎng)絡(luò)。包含恒等映射的殘差有助于訓(xùn)練極深層網(wǎng)絡(luò),但同時(shí)也是殘差網(wǎng)絡(luò)的一個(gè)缺點(diǎn)。
WRN
Wide Residual Networks
Sergey Zagoruyko, Nikos Komodakis
Caffe實(shí)現(xiàn):https://github.com/binLearnin...
摘要深度殘差網(wǎng)絡(luò)可以擴(kuò)展到上千層,并且仍然能夠提升性能。但是,每提升1%的準(zhǔn)確率就要付出將網(wǎng)絡(luò)層數(shù)翻倍的代價(jià),而極深層的殘差網(wǎng)絡(luò)對(duì)特征的重復(fù)利用逐漸減少(diminishing feature reuse),這會(huì)使網(wǎng)絡(luò)訓(xùn)練變得很慢。為了處理這個(gè)問(wèn)題,本文提出一種新的架構(gòu)——wide residual networks (WRNs),該架構(gòu)減小殘差網(wǎng)絡(luò)的深度,增大網(wǎng)絡(luò)的寬度。實(shí)驗(yàn)證明WRN要優(yōu)于窄但極深的網(wǎng)絡(luò),16層的WRN在準(zhǔn)確率和效率方面要優(yōu)于之前所有的殘差網(wǎng)絡(luò),包括超過(guò)1000層的極深殘差網(wǎng)絡(luò),WRN在CIFAR、SVHN、COCO上都取得了最佳的結(jié)果,在ImageNet上也有很大提升。官方實(shí)現(xiàn)(Torch)源碼地址:https://github.com/szagoruyko... 。
1. Introduction近幾年在多項(xiàng)工作中都發(fā)現(xiàn)了使用深層網(wǎng)絡(luò)的優(yōu)勢(shì),但是訓(xùn)練深層網(wǎng)絡(luò)存在一些難點(diǎn),包括梯度消失/爆炸、退化現(xiàn)象等。多種技術(shù)有助于訓(xùn)練較深層的網(wǎng)絡(luò),比如精心設(shè)計(jì)的初始化策略(msra等),更好的優(yōu)化器,跳躍連接(skip connection),知識(shí)遷移(knowledge transfer),逐層訓(xùn)練(layer-wise training)等。
最近的ResNet在多個(gè)任務(wù)上都取得了最佳的結(jié)果,相比于Inception架構(gòu),ResNet具有更好的泛化能力,也就是說(shuō)它提取的特征可以用于遷移學(xué)習(xí)。Inception-ResNet顯示了殘差連接可以加速深層網(wǎng)絡(luò)的收斂速度,ResNet-v2考察了殘差網(wǎng)絡(luò)中激活函數(shù)的位置順序,顯示了恒等映射在殘差網(wǎng)絡(luò)中的重要性,并且利用新的架構(gòu)可以訓(xùn)練極深層的網(wǎng)絡(luò)。Highway network也可以訓(xùn)練深層網(wǎng)絡(luò),它與ResNet最大的不同在于它的殘差連接是參數(shù)門(mén)限形式的。
之前的研究基本都是著眼于殘差block中的激活函數(shù)位置順序或者殘差網(wǎng)絡(luò)的深度。本文從另一個(gè)角度來(lái)提高殘差網(wǎng)絡(luò)性能。
Width vs depth in residual networks
ResNet為了在增加網(wǎng)絡(luò)深度時(shí)保持模型包含較小參數(shù)量,將網(wǎng)絡(luò)設(shè)計(jì)的很“窄(thin)”,甚至引入bottleneck block使block更窄。
包含恒等映射的殘差block有助于訓(xùn)練極深層網(wǎng)絡(luò),但同時(shí)也是殘差網(wǎng)絡(luò)的一個(gè)缺點(diǎn)。梯度反傳時(shí)并不一定要通過(guò)殘差block中帶權(quán)值的支路(殘差函數(shù)),那么這些殘差函數(shù)在訓(xùn)練時(shí)就學(xué)習(xí)不到任何信息,所以殘差網(wǎng)絡(luò)中可能只有一小部分block學(xué)習(xí)到有用的表示,大多數(shù)block對(duì)最終的預(yù)測(cè)貢獻(xiàn)甚少。這個(gè)問(wèn)題在Highway network被稱為diminishing feature reuse。隨機(jī)深度ResNet通過(guò)在訓(xùn)練時(shí)隨機(jī)丟棄ResNet中的部分層來(lái)解決這個(gè)問(wèn)題,這種方法可以視為dropout的特例,而該方法的有效性也證明了上述假設(shè)是正確的。
本文工作基于ResNet-v2,主要考察殘差block的寬度。本文實(shí)驗(yàn)顯示, 適當(dāng)?shù)脑黾覴esNet中block的寬度比增加網(wǎng)絡(luò)深度可以更有效的提升性能 ,這說(shuō)明殘差網(wǎng)絡(luò)的能力主要由殘差block提供,網(wǎng)絡(luò)深度只有補(bǔ)充性的作用。
Use of dropout in ResNet blocks
Dropout多用于網(wǎng)絡(luò)中包含大量參數(shù)的最終幾層(一般是全連接層)來(lái)防止特征相互適應(yīng)(feature coadaptation)以及過(guò)擬合。但dropout逐漸被batch normalization (BN)取代,BN也有正則化的效果,并且實(shí)驗(yàn)證明使用BN的網(wǎng)絡(luò)比使用dropout的網(wǎng)絡(luò)有更高的準(zhǔn)確率。在本文中,加寬的殘差block包含大量參數(shù),我們使用dropout來(lái)防止過(guò)擬合。ResNet-v2中將dropout加到快捷連接支路上發(fā)現(xiàn)性能變差,我們認(rèn)為dropout應(yīng)該添加到殘差函數(shù)支路中,實(shí)驗(yàn)證明該方法可以提升網(wǎng)絡(luò)性能。
在ResNet-v2中殘差網(wǎng)絡(luò)有兩種形式的block:
basic —— 兩個(gè)相連的3x3卷積層,預(yù)激活(pre-activation)形式,如圖1(a)所示
bottleneck —— 一個(gè)3x3卷積層,前后各一個(gè)1x1卷積層,如圖1(b)所示
bottleneck block是為了在增加層數(shù)時(shí)減少block的計(jì)算量,也就是使得block更窄,而我們要考察的是加寬block的效果,所以不考慮bottleneck block,在本文架構(gòu)中只使用basic形式。
有三種提升殘差block表示能力的方法:
? 向每個(gè)block中增加更多的卷積層
? 通過(guò)增加特征圖數(shù)量來(lái)加寬卷積層
? 增大卷積層的濾波器尺寸
VGG、Inception-v4中顯示小尺寸的濾波器更有效,所以本文不考慮尺寸大于3x3的卷積核。引入兩個(gè)因子:深度因子l,表示一個(gè)block中包含的卷積層數(shù)量;寬度因子k,卷積層輸出特征圖數(shù)量的倍數(shù),那么basic block對(duì)應(yīng)的l=2,k=1。圖1(a)、(c)分別展示了basic block和加寬的basic block。
表1中展示了本文提出的殘差網(wǎng)絡(luò)的具體配置,其中寬度因子k用來(lái)控制殘差block的寬度。
用B(M)來(lái)表示殘差block的結(jié)構(gòu),其中M表示卷積層列表,以濾波器尺寸來(lái)代表卷積層。為了考察3x3卷積層的重要性,以及它是否可以被其他形式的卷積取代,本文試驗(yàn)了多種形式的卷積組合:
B(3,3) - original basic block
B(3,1,3) - with one extra 1x1 layer
B(1,3,1) - with the same dimensionality of all convolutions, straightened bottleneck
B(1,3) - the network has alternating 1x1-3x3 convolutions everywhere
B(3,1) - similar idea to the previous block
B(3,1,1) - Network-in-Network style block
2.2 Number of convolutional layers per residual block考察深度因子l對(duì)模型性能的影響,為了保持網(wǎng)絡(luò)復(fù)雜度基本不變,需要同時(shí)改變l和d(d表示block的總數(shù)),也就是說(shuō)增大l時(shí)應(yīng)該減小d。
考察寬度因子k,當(dāng)block深度因子l或者block總數(shù)d增大時(shí),模型參數(shù)量也線性增加;而寬度因子k增大時(shí),參數(shù)量和計(jì)算復(fù)雜度會(huì)增加k的平方倍。即使這樣,計(jì)算加寬的網(wǎng)絡(luò)也比窄但極深的網(wǎng)絡(luò)更加高效,因?yàn)镚PU在并行計(jì)算大的張量時(shí)更加高效。
ResNet之前的網(wǎng)絡(luò)架構(gòu)都是比較寬的,比如Inception和VGG。
本文以WRN-n-k表示包含n個(gè)卷積層且寬度因子為k的WRN,也有可能加上block的形式,比如WRN-40-2-B(3,3)。
加寬block會(huì)增加網(wǎng)絡(luò)的參數(shù)數(shù)量,所以要使用正則化方法。之前的殘差網(wǎng)絡(luò)使用BN來(lái)提供正則化的效果,但仍然需要大量的數(shù)據(jù)增廣操作。本文在殘差函數(shù)支路中加入dropout(如圖1(d)所示)來(lái)避免過(guò)擬合。在極深層殘差網(wǎng)絡(luò)中這樣應(yīng)該可以解決特征重復(fù)利用逐漸減少的問(wèn)題,因?yàn)閐ropout的加入可以強(qiáng)使不同的殘差block學(xué)習(xí)表示。
3. Experimental results分別在CIFAR-10、CIFAR-100、SVHN和ImageNet數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
Type of convolutions in a block
不同形式的卷積組合的性能見(jiàn)表2,可以看出,具有相同參數(shù)量的block的性能基本一樣,所以后面的實(shí)驗(yàn)全部選取只包含3x3卷積層的形式。
Number of convolutions per block
不同的深度因子l的性能見(jiàn)表3。B(3,3,3)和B(3,3,3,3)比B(3,3)性能差,可能是因?yàn)榫W(wǎng)絡(luò)中的殘差連接減少(參考2.2),使得網(wǎng)絡(luò)難以優(yōu)化。
Width of residual blocks
考察不同的k和網(wǎng)絡(luò)深度的組合,具體性能見(jiàn)表4。
表5展示了不同網(wǎng)絡(luò)的性能比較,圖2顯示了兩個(gè)代表性網(wǎng)絡(luò)的訓(xùn)練曲線。
盡管先前的一些工作表明深度具有正則化的效果,而寬度則會(huì)導(dǎo)致過(guò)擬合,但是我們成功訓(xùn)練出來(lái)比1001層ResNet參數(shù)量還要多的模型,訓(xùn)練耗時(shí)更短,性能也更好。
總結(jié)上述實(shí)驗(yàn)結(jié)果:
? 加寬不同深度的殘差網(wǎng)絡(luò)都可以提升性能
? 在參數(shù)量過(guò)多和需要更強(qiáng)的正則化方法之前,增加深度和寬度都有助于提升性能
? 深度好像并沒(méi)有正則化的作用,具有相同參數(shù)量的寬且淺網(wǎng)絡(luò)可以學(xué)習(xí)到相當(dāng)或更好的表示。此外,寬網(wǎng)絡(luò)可以訓(xùn)練出數(shù)倍于窄網(wǎng)絡(luò)參數(shù)量的模型,窄網(wǎng)絡(luò)的深度需要加倍才能得到相同的結(jié)果,這使得訓(xùn)練幾乎不可行
Dropout in residual blocks
考察dropout的作用,具體性能見(jiàn)表6。
我們發(fā)現(xiàn)在訓(xùn)練殘差網(wǎng)絡(luò)時(shí),在第一次和第二次下調(diào)學(xué)習(xí)率之間的時(shí)間段,驗(yàn)證集損失和誤差都會(huì)震蕩走高,這可能是因?yàn)闄?quán)值衰減(weight decay),但是調(diào)低權(quán)值衰減系數(shù)會(huì)使得準(zhǔn)確率大幅下降。dropout可以在大多數(shù)情況下緩解這個(gè)問(wèn)題(見(jiàn)圖2,3)。
盡管網(wǎng)絡(luò)中使用了BN,dropout仍然是一個(gè)有效的正則化方法。dropout可以和加寬方法互補(bǔ)使用來(lái)進(jìn)一步提升模型性能。
ImageNet and COCO experiments
具體結(jié)果見(jiàn)表7-9。
Computational efficiency
窄深且卷積核尺寸小的殘差網(wǎng)絡(luò)與GPU計(jì)算優(yōu)勢(shì)相悖。增加寬度可以提高計(jì)算效率,所以寬的網(wǎng)絡(luò)通常更高效??疾觳煌木W(wǎng)絡(luò)計(jì)算耗時(shí)如圖4。
Implementation details
使用Torch實(shí)現(xiàn),官方實(shí)現(xiàn)源碼地址:https://github.com/szagoruyko... 。
本文主要考察了殘差網(wǎng)絡(luò)中的寬度以及dropout的使用。實(shí)驗(yàn)證明殘差網(wǎng)絡(luò)的能力主要由殘差block提供,并不是極端的深度。另外,WRN的訓(xùn)練在某些情況下會(huì)更快。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/19628.html
摘要:和是兩個(gè)非常重要的網(wǎng)絡(luò),它們顯示了深層卷積神經(jīng)網(wǎng)絡(luò)的能力,并且指出使用極小的卷積核可以提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。也有工作考察與的關(guān)系,與其相似,本文考察了與的關(guān)系。與的網(wǎng)絡(luò)架構(gòu)配置以及復(fù)雜度見(jiàn)表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...
摘要:將這些需要保留的信息直接通過(guò)恒等映射進(jìn)行傳輸,展示了中的很多層對(duì)最終的結(jié)果影響極小,可以在訓(xùn)練時(shí)隨機(jī)丟棄部分層。得益于密集連接的方式,可以同時(shí)具有恒等映射深度監(jiān)督和深度多樣性的特性。 DenseNet Densely Connected Convolutional NetworksGao Huang, Zhuang Liu, Kilian Q. Weinberger, Laurens ...
摘要:本文提出的網(wǎng)絡(luò)名為,意為維度基數(shù)。在空間通道維度分解網(wǎng)絡(luò),減少冗余,可以對(duì)網(wǎng)絡(luò)進(jìn)行加速或精簡(jiǎn)。復(fù)雜度不變的情況下,隨著基數(shù)的增大錯(cuò)誤率持續(xù)減小??疾煸黾由疃葘挾然鶖?shù)對(duì)網(wǎng)絡(luò)性能的提升。 ResNeXt Aggregated Residual Transformations for Deep Neural NetworksSaining Xie, Ross Girshick, Piotr ...
摘要:大量實(shí)驗(yàn)結(jié)果證明了恒等映射的重要性。本文實(shí)驗(yàn)了不同形式的,發(fā)現(xiàn)使用恒等映射的網(wǎng)絡(luò)性能最好,誤差減小最快且訓(xùn)練損失最低。為了使得是恒等映射,需要調(diào)整和帶權(quán)值層的位置。恒等映射形式的快捷連接和預(yù)激活對(duì)于信號(hào)在網(wǎng)絡(luò)中的順暢傳播至關(guān)重要。 ResNet-v2 Identity Mappings in Deep Residual NetworksKaiming He, Xiangyu Zhang...
摘要:前面層中的以類別無(wú)關(guān)的方式增強(qiáng)可共享的低層表示的質(zhì)量。通過(guò)調(diào)整網(wǎng)絡(luò)各層間的連接機(jī)制來(lái)提升深層網(wǎng)絡(luò)的學(xué)習(xí)和表示性能?;径际浅R?guī)處理和訓(xùn)練設(shè)置。根據(jù)輸入動(dòng)態(tài)調(diào)整各通道的特征,增強(qiáng)網(wǎng)絡(luò)的表示能力。 SENet Squeeze-and-Excitation NetworksJie Hu, Li Shen, Gang Sun 摘要 卷積神經(jīng)網(wǎng)絡(luò)顧名思義就是依賴卷積操作,使用局部感受區(qū)域(loc...
閱讀 3229·2021-11-12 10:36
閱讀 1304·2019-08-30 15:56
閱讀 2455·2019-08-30 11:26
閱讀 563·2019-08-29 13:00
閱讀 3622·2019-08-28 18:08
閱讀 2763·2019-08-26 17:18
閱讀 1914·2019-08-26 13:26
閱讀 2442·2019-08-26 11:39