摘要:將這些需要保留的信息直接通過(guò)恒等映射進(jìn)行傳輸,展示了中的很多層對(duì)最終的結(jié)果影響極小,可以在訓(xùn)練時(shí)隨機(jī)丟棄部分層。得益于密集連接的方式,可以同時(shí)具有恒等映射深度監(jiān)督和深度多樣性的特性。
DenseNet
Densely Connected Convolutional Networks
Gao Huang, Zhuang Liu, Kilian Q. Weinberger, Laurens van der Maaten
Caffe實(shí)現(xiàn):https://github.com/binLearnin...
摘要近期的一些工作表明,如果在網(wǎng)絡(luò)層之間加上快捷連接(shorter connections),那么卷積網(wǎng)絡(luò)可以設(shè)計(jì)得更深層、取得更高的準(zhǔn)確率、訓(xùn)練也更高效。本文提出一種密集卷積網(wǎng)絡(luò)(Dense Convolutional Network,DenseNet),網(wǎng)絡(luò)中的層會(huì)與它之前的所有層直接連接。具有L層的傳統(tǒng)卷積網(wǎng)絡(luò)中有L條連接,而DenseNet中有L(L+1)/2條直接連接線路。對(duì)于網(wǎng)絡(luò)中的每一層,在它之前的所有層所生成的特征圖(feature-maps)都會(huì)作為該層的輸入。DenseNet的優(yōu)點(diǎn)有:緩解梯度消失問題,增強(qiáng)特征在網(wǎng)絡(luò)中的傳輸,特征可重復(fù)利用,大幅降低網(wǎng)絡(luò)參數(shù)數(shù)量。我們?cè)谒膫€(gè)benchmark數(shù)據(jù)集(CIFAR-10,CIFAR-100,SVHN and ImageNet)上評(píng)估網(wǎng)絡(luò)性能,DenseNet相比于之前的大多數(shù)先進(jìn)網(wǎng)絡(luò)都有較大提升。官方實(shí)現(xiàn)(Caffe)的源碼地址:https://github.com/liuzhuang1... 。
1. IntroductionCNN在最近才真正是“深度”網(wǎng)絡(luò),Hightway Networks和ResNet是最早突破100層的網(wǎng)絡(luò)架構(gòu)。隨著網(wǎng)絡(luò)深度的增加,一個(gè)新問題出現(xiàn)了:輸入的信息或者反傳的梯度在經(jīng)過(guò)多個(gè)網(wǎng)絡(luò)層之后可能會(huì)消失。最近的多項(xiàng)工作都可以用來(lái)解決這個(gè)問題,比如ResNet、Hightway Networks、隨機(jī)深度的ResNet、FractalNet等,這些網(wǎng)絡(luò)架構(gòu)都有一個(gè)共同點(diǎn):層之間都有直連的線路。
本文提出一種新的連接方式:為了最大化網(wǎng)絡(luò)層間的信息傳輸,所有層(具有相同特征圖空間尺寸)均加上快捷連接,如圖1所示。
ResNet使用加法操作來(lái)連接不同分支的輸出,而DenseNet使用沿通道維度串聯(lián)的方式來(lái)整合輸出。由于這種密集的連接方式,我們稱本文的網(wǎng)絡(luò)為Dense Convolutional Network(DenseNet)。
DenseNet需要的參數(shù)規(guī)模比傳統(tǒng)的卷積網(wǎng)絡(luò)更小,這是因?yàn)樗恍枰匦聦W(xué)習(xí)那些冗余的特征圖。傳統(tǒng)的前饋架構(gòu)可以視作帶狀態(tài)的算法,狀態(tài)在層間進(jìn)行傳遞。每一層都會(huì)對(duì)狀態(tài)做一些變化,但也會(huì)保留一些必要的信息。ResNet將這些需要保留的信息直接通過(guò)恒等映射進(jìn)行傳輸,deep networks with stochastic depth展示了ResNet中的很多層對(duì)最終的結(jié)果影響極小,可以在訓(xùn)練時(shí)隨機(jī)丟棄部分層。如此一來(lái)ResNet中的狀態(tài)和(展開的)RNN就很相似,但是ResNet中每一層的參數(shù)不是共享的,所以中的參數(shù)量要大得多。DenseNet將每一層新添加的信息和需要保留的信息區(qū)分開來(lái)。DenseNet中的層可以很精簡(jiǎn)(比如每一層只產(chǎn)生12個(gè)特征圖),每層只添加少量的特征圖到網(wǎng)絡(luò)的“集體知識(shí)(collective knowledge)”中,其余的特征圖保存不變,分類器最終的決策依賴于網(wǎng)絡(luò)中的所有特征圖。
除了對(duì)參數(shù)的有效利用之外,DenseNet還有一個(gè)很大的優(yōu)點(diǎn),它可以改進(jìn)信息和梯度在網(wǎng)絡(luò)中的傳輸,使得網(wǎng)絡(luò)更易于優(yōu)化。每一層都可以直接得到損失函數(shù)的梯度以及原始的輸入信號(hào),就像隱式的深度監(jiān)督(deep supervision)。這有助于訓(xùn)練更深層的網(wǎng)絡(luò)。另外我們還發(fā)現(xiàn)密集連接有一定的正則化效果,在訓(xùn)練集規(guī)模比較小時(shí)可以避免過(guò)擬合。
FCN等網(wǎng)絡(luò)通過(guò)快捷連接(skip-connnection)將網(wǎng)絡(luò)中的多級(jí)特征進(jìn)行組合,可有效提升網(wǎng)絡(luò)性能。AdaNet也提出一種跨層連接的網(wǎng)絡(luò)架構(gòu)。Highway Network是第一個(gè)可以有效訓(xùn)練超過(guò)100層的網(wǎng)絡(luò)結(jié)構(gòu)。ResNet將Highway Network中的門限分路直接改為恒等映射,在多個(gè)計(jì)算機(jī)視覺領(lǐng)域取得極大的性能提升。隨機(jī)深度ResNet通過(guò)隨機(jī)丟棄部分層來(lái)改進(jìn)訓(xùn)練過(guò)程,成功訓(xùn)練了超過(guò)1000層的網(wǎng)絡(luò),這個(gè)工作說(shuō)明并不是所有層都是必須的,也就是說(shuō)深度殘差網(wǎng)絡(luò)中存在著大量冗余,DenseNet的部分靈感來(lái)自于這個(gè)觀察。預(yù)激活(pre-activation)的ResNet-v2也可以訓(xùn)練出超過(guò)1000層的網(wǎng)絡(luò)。
除了增加網(wǎng)絡(luò)深度外,還有一些網(wǎng)絡(luò)是從增加網(wǎng)絡(luò)寬度入手。GoogLeNet中的Inception模塊將不同尺寸卷積核產(chǎn)生的特征圖相連接作為輸出。Resnet in Resnet (RiR)提出了一種更寬的殘差block。Wide Residual Networks(WRN)展示了只要?dú)埐罹W(wǎng)絡(luò)深度足夠,通過(guò)簡(jiǎn)單的每層的增加濾波器數(shù)量就可以提高網(wǎng)絡(luò)性能。FractalNet使用更寬的網(wǎng)絡(luò)結(jié)構(gòu)也取得了很好的效果。
不同于從極深/寬的網(wǎng)絡(luò)中獲取更強(qiáng)的表示能力,DenseNet致力于探索特征重復(fù)使用(feature reuse)的潛力,同時(shí)使用精簡(jiǎn)的網(wǎng)絡(luò),使得模型更易于優(yōu)化并且具有很高的參數(shù)利用率。連接不同層所產(chǎn)生的特征圖可以增加后續(xù)層輸入的多樣性并提高效率,這是與ResNet最大的不同之處。Inception網(wǎng)絡(luò)也是連接不同層所產(chǎn)生的特征圖,但是DenseNet更加簡(jiǎn)單高效。
還有一些網(wǎng)絡(luò)架構(gòu)也有很好的性能,比如Network in Network (NIN)、Deeply Supervised Network (DSN)、Ladder Networks、Deeply-Fused Nets (DFNs)等。
ResNets
ResNet在層間中加入一個(gè)恒等映射的快捷連接:
ResNet的優(yōu)點(diǎn)是后面層中的梯度可以通過(guò)恒等函數(shù)直接傳輸?shù)角懊娴膶?。但?ResNet中恒等連接的輸出與殘差函數(shù)的輸出通過(guò)加法操作進(jìn)行連接,可能會(huì)影響網(wǎng)絡(luò)中的信息流動(dòng) 。
DenseNet
DenseNet中的每一層與它所有的后續(xù)層都有直接連接,如圖1所示,也就是說(shuō)每一層的輸入包含它之前所有層所產(chǎn)生的特征圖:
為了便于實(shí)現(xiàn),將公式(2)中的輸入連接為一個(gè)多帶帶的張量。
Composite function
與ResNet-v2中一樣,殘差函數(shù)由單個(gè)連續(xù)操作組成:batch normalization (BN),rectified linear unit (ReLU),3×3 convolution (Conv)。
Pooling layers
DenseNet將網(wǎng)絡(luò)分為多個(gè)密集連接的dense block,如圖2所示,每個(gè)block之間加入一個(gè)transition layer用于改變特征圖尺寸,transition layer由batch normalization (BN),1x1 convolution (Conv),2×2 average pooling組成。
Growth rate
引入一個(gè)新的超參數(shù)growth rate,表示每個(gè)殘差函數(shù)H產(chǎn)生的特征圖數(shù)量,本文中以k表示。為了防止網(wǎng)絡(luò)太寬并提高參數(shù)利用率,k的取值不應(yīng)太大,一般12,16即可??梢詫⑻卣鲌D視為網(wǎng)絡(luò)的全局狀態(tài),每層都會(huì)新添加k個(gè)特征圖,那么growth rate就可以控制每一層可以向全局狀態(tài)中添加多少新的信息。
Bottleneck layers
雖然每一層只產(chǎn)生k個(gè)特征圖,但加起來(lái)的總量是很可觀的,導(dǎo)致后續(xù)層的輸入量太大。本文使用bottleneck layer(1x1-3x3-1x1)來(lái)解決這一問題。第一個(gè)1x1卷積層可以減少輸入特征圖的數(shù)量,以此來(lái)提高計(jì)算效率。本文將使用了bottleneck layer的模型表示為DenseNet-B。除非另有說(shuō)明,本文所有bottleneck layer中的第一個(gè)1x1卷積層將輸入特征圖減少到4k個(gè)。
Compression
為了進(jìn)一步精簡(jiǎn)網(wǎng)絡(luò),在transition layer中也減少一定比例的特征圖,本文中設(shè)置該比例為0.5也就是減少一半的特征圖。本文將同時(shí)使用Bottleneck layers和Compression的模型表示為DenseNet-BC。
Implementation Details
具體見表1。
結(jié)果見表2。
Accuracy
250層DenseNet-BC在SVHN上的表現(xiàn)不佳,可能是因?yàn)镾VHN相對(duì)比較簡(jiǎn)單,極深層的網(wǎng)絡(luò)出現(xiàn)了過(guò)擬合的現(xiàn)象。
Capacity
DenseNet隨著L和k的增大性能也持續(xù)提升,說(shuō)明DenseNet可以加深/寬來(lái)提高表示能力,也可以看出DenseNet沒有出現(xiàn)過(guò)擬合或者優(yōu)化困難的現(xiàn)象。
Parameter Efficiency
DenseNet的參數(shù)利用率比其他模型更高,尤其是DenseNet-BC。
Overfitting
參數(shù)利用率高的一個(gè)正面影響就是DenseNet不易發(fā)生過(guò)擬合現(xiàn)象,DenseNet-BC也可以避免過(guò)擬合。
與ResNet的比較見圖3。
Model compactness
DenseNet可以重復(fù)利用前面層的特征圖,并且使用更加精簡(jiǎn)的模型。圖4展示了不同網(wǎng)絡(luò)的參數(shù)使用率。從圖中可以看出,DenseNet-BC是參數(shù)利用率最高的模型。這個(gè)結(jié)果也符合圖3中的趨勢(shì)。圖4-right顯示了只有0.8M可訓(xùn)練參數(shù)的DenseNet-BC性能可以匹敵包含10.2M參數(shù)的1001層ResNet。
Implicit Deep Supervision
DenseNet性能的提升也可能得益于隱式的深度監(jiān)督機(jī)制,每一層都可以通過(guò)快捷連接直接從損失函數(shù)層得到梯度(額外的監(jiān)督信號(hào))。deeply-supervised nets (DSN)中解釋了深度監(jiān)督的優(yōu)勢(shì),相比較而言DenseNet中的監(jiān)督信號(hào)更加簡(jiǎn)單,所有層都是從同一個(gè)損失函數(shù)層接收梯度。
Stochastic vs. deterministic connection
DenseNet在一定程度上受到了隨機(jī)深度ResNet的啟發(fā)。
Feature Reuse
DenseNet中的每一層可以接收到它之前的所有層所產(chǎn)生的特征圖(有時(shí)要經(jīng)過(guò)transition layers)。為了驗(yàn)證網(wǎng)絡(luò)是否受益于該機(jī)制,針對(duì)同一block中的每一層,計(jì)算該層與它前面s層輸出上的權(quán)值的絕對(duì)值均值,圖5展示了三個(gè)dense block中每一層的情況,權(quán)值的絕對(duì)值均值可以考察該層對(duì)之前層的依賴程度。
從圖5中可以看出:
1.同一block中的每一層在多個(gè)輸入上都有權(quán)值。這說(shuō)明在同一個(gè)block中,最早期提取的特征也會(huì)被最后的層直接利用到。
2.transition layers在幾乎所有輸入上都有權(quán)值。這說(shuō)明DenseNet網(wǎng)絡(luò)中第一層的信息也可以間接傳輸?shù)阶詈笠粚印?br>3.第二和第三個(gè)block中的層都在前面transition layers產(chǎn)生的特征上分配了最少的權(quán)重。這說(shuō)明transition layers的輸出中有很多冗余特征,DenseNet-BC通過(guò)壓縮這些輸出獲得了更好的性能也說(shuō)明了這一點(diǎn)。
4.最終的分類層更多的利用了最后的一些特征圖,這可能是因?yàn)樽詈蟛糠值膶訒?huì)生成更高層的特征(更具有區(qū)分能力)。
本文提出了一種新的卷積網(wǎng)絡(luò)架構(gòu)——Dense Convolutional Network (DenseNet),同一個(gè)block中的所有層互聯(lián)。DenseNet參數(shù)規(guī)模更小,計(jì)算復(fù)雜度更低,但在多個(gè)任務(wù)上取得了最佳的結(jié)果。
得益于密集連接的方式,DenseNet可以同時(shí)具有恒等映射(identity mapping)、深度監(jiān)督(deep supervision)和深度多樣性(diversified depth)的特性。DenseNet可以重復(fù)利用網(wǎng)絡(luò)中的特征,學(xué)習(xí)到更簡(jiǎn)潔、準(zhǔn)確率更高的模型。由于它內(nèi)部表示的簡(jiǎn)潔以及對(duì)冗余特征的縮減,DenseNet可以在多種計(jì)算機(jī)視覺任務(wù)中作為特征提取器。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/19657.html
摘要:和是兩個(gè)非常重要的網(wǎng)絡(luò),它們顯示了深層卷積神經(jīng)網(wǎng)絡(luò)的能力,并且指出使用極小的卷積核可以提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。也有工作考察與的關(guān)系,與其相似,本文考察了與的關(guān)系。與的網(wǎng)絡(luò)架構(gòu)配置以及復(fù)雜度見表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...
摘要:前面層中的以類別無(wú)關(guān)的方式增強(qiáng)可共享的低層表示的質(zhì)量。通過(guò)調(diào)整網(wǎng)絡(luò)各層間的連接機(jī)制來(lái)提升深層網(wǎng)絡(luò)的學(xué)習(xí)和表示性能?;径际浅R?guī)處理和訓(xùn)練設(shè)置。根據(jù)輸入動(dòng)態(tài)調(diào)整各通道的特征,增強(qiáng)網(wǎng)絡(luò)的表示能力。 SENet Squeeze-and-Excitation NetworksJie Hu, Li Shen, Gang Sun 摘要 卷積神經(jīng)網(wǎng)絡(luò)顧名思義就是依賴卷積操作,使用局部感受區(qū)域(loc...
摘要:首先第一種當(dāng)然是在年提出的,它奠定了整個(gè)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。其中局部感受野表示卷積核只關(guān)注圖像的局部特征,而權(quán)重共享表示一個(gè)卷積核在整張圖像上都使用相同的權(quán)值,最后的子采樣即我們常用的池化操作,它可以精煉抽取的特征。 近日,微軟亞洲研究院主辦了一場(chǎng)關(guān)于 CVPR 2018 中國(guó)論文分享會(huì),機(jī)器之心在分享會(huì)中發(fā)現(xiàn)了一篇非常有意思的論文,它介紹了一種新型卷積網(wǎng)絡(luò)架構(gòu),并且相比于 DenseNet...
閱讀 919·2019-08-30 15:54
閱讀 1481·2019-08-30 15:54
閱讀 2409·2019-08-29 16:25
閱讀 1303·2019-08-29 15:24
閱讀 756·2019-08-29 12:11
閱讀 2513·2019-08-26 10:43
閱讀 1237·2019-08-26 10:40
閱讀 478·2019-08-23 16:24