摘要:前面層中的以類別無(wú)關(guān)的方式增強(qiáng)可共享的低層表示的質(zhì)量。通過調(diào)整網(wǎng)絡(luò)各層間的連接機(jī)制來(lái)提升深層網(wǎng)絡(luò)的學(xué)習(xí)和表示性能?;径际浅R?guī)處理和訓(xùn)練設(shè)置。根據(jù)輸入動(dòng)態(tài)調(diào)整各通道的特征,增強(qiáng)網(wǎng)絡(luò)的表示能力。
SENet
Squeeze-and-Excitation Networks
Jie Hu, Li Shen, Gang Sun
卷積神經(jīng)網(wǎng)絡(luò)顧名思義就是依賴卷積操作,使用局部感受區(qū)域(local receptive field)的思想融合空間信息和通道信息來(lái)提取包含信息的特征。有很多工作從增強(qiáng)空間維度編碼的角度來(lái)提升網(wǎng)絡(luò)的表示能力,本文主要聚焦于通道維度,并提出一種新的結(jié)構(gòu)單元——“Squeeze-and-Excitation(SE)”單元,對(duì)通道間的依賴關(guān)系進(jìn)行建模,可以自適應(yīng)的調(diào)整各通道的特征響應(yīng)值。如果將SE block添加到之前的先進(jìn)網(wǎng)絡(luò)中,只會(huì)增加很小的計(jì)算消耗,但卻可以極大地提升網(wǎng)絡(luò)性能。依靠SENet作者獲得了ILSVRC2017分類任務(wù)的第一名,top-5錯(cuò)誤率為2.251%。
1. Introduction每個(gè)卷積層有若干濾波器,可以學(xué)習(xí)表達(dá)包含所有通道的局部空間連接模式。也就是說,卷積濾波器提取局部感受區(qū)域中的空間和通道的融合信息。再加上非線性激活層和降采樣層,CNN可以獲得具有全局感受區(qū)域的分層模式來(lái)作為圖像的描述。最近的一些工作表明,可以通過加入有助于獲取空間相關(guān)性的學(xué)習(xí)機(jī)制來(lái)改善網(wǎng)絡(luò)的性能,而且不需要額外的監(jiān)督。例如Inception架構(gòu),通過在模塊中加入多尺度處理來(lái)提高性能。另有探索更好的空間相關(guān)性的模型或者添加空間注意力的一些工作。
與上述方法不同,本文主要探索網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的另一個(gè)方面——通道關(guān)聯(lián)性。本文提出一種新的網(wǎng)絡(luò)單元——“Squeeze-and-Excitation(SE)” block,希望通過對(duì)各通道的依賴性進(jìn)行建模以提高網(wǎng)絡(luò)的表示能力,并且可以對(duì)特征進(jìn)行逐通道調(diào)整,這樣網(wǎng)絡(luò)就可以學(xué)習(xí)通過全局信息來(lái)有選擇性的加強(qiáng)包含有用信息的特征并抑制無(wú)用特征。
SE block的基本結(jié)構(gòu)見圖1。第一步squeeze操作,將各通道的全局空間特征作為該通道的表示,形成一個(gè)通道描述符;第二步excitation操作,學(xué)習(xí)對(duì)各通道的依賴程度,并根據(jù)依賴程度的不同對(duì)特征圖進(jìn)行調(diào)整,調(diào)整后的特征圖就是SE block的輸出。
前面層中的SE block以類別無(wú)關(guān)(class agnostic)的方式增強(qiáng)可共享的低層表示的質(zhì)量。越后面的層SE block越來(lái)越類別相關(guān)。SE block重新調(diào)整特征的益處可以在整個(gè)網(wǎng)絡(luò)中積累。SE block設(shè)計(jì)簡(jiǎn)單,可以很容易地加入到已有的網(wǎng)絡(luò)中,只增加少量的模型復(fù)雜度和計(jì)算開支,另外對(duì)不同數(shù)據(jù)集的泛化能力較強(qiáng)。作者依靠SENet取得了ILSVRC2017分類任務(wù)的第一名。官方實(shí)現(xiàn)(Caffe)源碼地址:https://github.com/hujie-fran... 。
2. Related WorkDeep architectures
有很多工作通過調(diào)整卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)使模型更容易地學(xué)習(xí)深層特征以提升模型性能。VGG和Inception網(wǎng)絡(luò)證明可以通過增加深度來(lái)提升性能。Batch normalization (BN)在網(wǎng)絡(luò)中添加可以調(diào)節(jié)輸入數(shù)據(jù)的單元來(lái)穩(wěn)定學(xué)習(xí)過程,改善梯度在網(wǎng)絡(luò)中的傳播,使得更深層的網(wǎng)絡(luò)也可以工作。ResNet、ResNet-v2在網(wǎng)絡(luò)中加入恒等映射形式的跳躍連接,使網(wǎng)絡(luò)學(xué)習(xí)殘差函數(shù),極大推進(jìn)了網(wǎng)絡(luò)架構(gòu)向更深層的發(fā)展。DenseNet、DPN通過調(diào)整網(wǎng)絡(luò)各層間的連接機(jī)制來(lái)提升深層網(wǎng)絡(luò)的學(xué)習(xí)和表示性能。
另一個(gè)方向是調(diào)整網(wǎng)絡(luò)中模塊的形式。分組卷積(grouped convolutions)可以用于增加基數(shù)(cardinality),如Deep roots、ResNeXt中所示,網(wǎng)絡(luò)可以學(xué)習(xí)到更豐富的表示。多分支卷積(multi-branch convolutions)可以視為分組卷積的泛化,網(wǎng)絡(luò)模塊可以進(jìn)行更靈活多變的操作,如Inception系列??缤ǖ老嚓P(guān)是一種新的特征組合方式,可以獨(dú)立于空間結(jié)構(gòu)(如Xception),或者使用1x1卷積進(jìn)行處理(如NIN),一般來(lái)說這些工作主要是為了降低模型和計(jì)算復(fù)雜度。這種方法的前提假設(shè)是通道是實(shí)例無(wú)關(guān)(instance-agnostic)的,也就是說輸出對(duì)于輸入數(shù)據(jù)各通道的依賴性是相同的,不是類別相關(guān)的。與之相反,本文提出一種新的機(jī)制,使用全局信息對(duì)各通道動(dòng)態(tài)的非線性的依賴性進(jìn)行建模,可以改善學(xué)習(xí)過程并提升網(wǎng)絡(luò)的表示能力。
Attention and gating mechanisms
注意力機(jī)制(attention)引導(dǎo)計(jì)算資源偏向輸入信號(hào)中信息量最大的部分,近幾年開始大量用于深度神經(jīng)網(wǎng)絡(luò)中,在很多任務(wù)中對(duì)性能有極大提升。它一般是和門限函數(shù)(如softmax、sigmoid)或者序列方法聯(lián)合使用。highway網(wǎng)絡(luò)使用門限機(jī)制來(lái)調(diào)節(jié)快捷連接,Residual attention network for image classification中介紹了一種trunk-and-mask注意力機(jī)制用于沙漏模型(hourglass module),成功的用于語(yǔ)義分割任務(wù)。SE block是一種輕量級(jí)的門限機(jī)制,專門用于對(duì)各通道的關(guān)聯(lián)性進(jìn)行建模。
卷積層的輸出并沒有考慮對(duì)各通道的依賴性,本文的目標(biāo)就是讓網(wǎng)絡(luò)有選擇性的增強(qiáng)信息量大的特征,使得后續(xù)處理可以充分利用這些特征,并對(duì)無(wú)用特征進(jìn)行抑制。
3.1 Squeeze: Global Information Embedding首先考察輸出特征每個(gè)通道的信號(hào),壓縮(squeeze)全局空間信息為通道描述符,使用全局平均池化來(lái)生成各通道的統(tǒng)計(jì)量。
3.2 Excitation: Adaptive Recalibration第二就是考察各通道的依賴程度,實(shí)現(xiàn)函數(shù)有兩個(gè)標(biāo)準(zhǔn):一是要靈活,二是要學(xué)習(xí)一個(gè)非互斥的關(guān)系,因?yàn)榭赡芏鄠€(gè)通道都會(huì)對(duì)結(jié)果有影響。本文使用帶sigmoid激活函數(shù)的門限機(jī)制來(lái)實(shí)現(xiàn)。為了限制模型復(fù)雜度并增強(qiáng)泛化能力,門限機(jī)制中使用bottleneck形式的兩個(gè)全連接層,第一個(gè)FC層降維至1/r,r為超參數(shù),本文取16,具體見6.3實(shí)驗(yàn)。最后的sigmoid函數(shù)就是各通道的權(quán)重,根據(jù)輸入數(shù)據(jù)調(diào)節(jié)各通道特征的權(quán)重,有助于增強(qiáng)特征的可分辨性。
3.3 Exemplars: SE-Inception and SE-ResNet在Inception網(wǎng)絡(luò)和ResNet網(wǎng)絡(luò)中加入SE block,具體見圖2、圖3。
對(duì)添加了SE block的網(wǎng)絡(luò)的具體配置見表1。
每個(gè)SE block中包含一個(gè)全局平均池化操作,兩個(gè)小的全連接層,最后一個(gè)簡(jiǎn)單的逐通道縮放操作,全部合起來(lái)在ResNet-50的基礎(chǔ)上增加了0.26%的計(jì)算量。新添加的參數(shù)量主要來(lái)自于兩個(gè)全連接層,ResNet-50增加了約10%,大多數(shù)都是來(lái)自最后階段,此時(shí)的通道維度很大。但是實(shí)驗(yàn)發(fā)現(xiàn)如果去掉最后階段的SE block性能并沒有太大影響,而新增加的參數(shù)量則會(huì)減小到約4%。
5. Implementation基本都是常規(guī)處理和訓(xùn)練設(shè)置。采用了Relay backpropagation for effective learning of deep convolutional neural networks中的數(shù)據(jù)平衡策略。
6. Experiments 6.1 ImageNet Classification本文實(shí)驗(yàn)的不同網(wǎng)絡(luò)的配置見表2,訓(xùn)練曲線見圖4-6。
在ImageNet驗(yàn)證集上不同網(wǎng)絡(luò)的表現(xiàn)見表3。
不同網(wǎng)絡(luò)的性能對(duì)比見表4。
Reduction ratio
3.2中討論的降維系數(shù)是超參數(shù),它不同取值對(duì)網(wǎng)絡(luò)性能的影響見表5。
為了權(quán)衡準(zhǔn)確率與復(fù)雜度,本文選取r=16。
The role of Excitation
考察自門限(self-gating)excitation機(jī)制。選取四個(gè)類別(如圖7),分別考察不同層中的SE block的平均激活值,其分布如圖8所示。
通過觀察圖8中不同層SE block激活值的分布情況,發(fā)現(xiàn)1)前面層中的分布基本一樣,說明這一階段的特征是類別無(wú)關(guān)的;2)后續(xù)層中分布越來(lái)越類別相關(guān),每個(gè)類別對(duì)特征由不同的選擇;3)SE_5_2和SE_5_3中的分布也基本一致,說明這兩層對(duì)網(wǎng)絡(luò)重新調(diào)整的重要性不高,可以去掉這兩層中的SE block以減少參數(shù)量,如第4章中所述。
7. ConclusionSE block根據(jù)輸入動(dòng)態(tài)調(diào)整各通道的特征,增強(qiáng)網(wǎng)絡(luò)的表示能力。另外也可以用于輔助網(wǎng)絡(luò)修剪/壓縮的工作。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/19653.html
摘要:分組卷積的思想影響比較深遠(yuǎn),當(dāng)前一些輕量級(jí)的網(wǎng)絡(luò),都用到了分組卷積的操作,以節(jié)省計(jì)算量。得到新的通道之后,這時(shí)再對(duì)這批新的通道進(jìn)行標(biāo)準(zhǔn)的跨通道卷積操作。 CNN從2012年的AlexNet發(fā)展至今,科學(xué)家們發(fā)明出各種各樣的CNN模型,一個(gè)比一個(gè)深,一個(gè)比一個(gè)準(zhǔn)確,一個(gè)比一個(gè)輕量。作者對(duì)近幾年一些具有變革性的工作進(jìn)行簡(jiǎn)單盤點(diǎn),從這些充滿革新性的工作中探討日后的CNN變革方向。本文只介紹其中具有...
摘要:潘新鋼等發(fā)現(xiàn),和的核心區(qū)別在于,學(xué)習(xí)到的是不隨著顏色風(fēng)格虛擬性現(xiàn)實(shí)性等外觀變化而改變的特征,而要保留與內(nèi)容相關(guān)的信息,就要用到。 大把時(shí)間、大把GPU喂進(jìn)去,訓(xùn)練好了神經(jīng)網(wǎng)絡(luò)。接下來(lái),你可能會(huì)迎來(lái)傷心一刻:同學(xué),測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù),色調(diào)、亮度不太一樣。同學(xué),你還要去搞定一個(gè)新的數(shù)據(jù)集。是重新搭一個(gè)模型呢,還是拿來(lái)新數(shù)據(jù)重新調(diào)參,在這個(gè)已經(jīng)訓(xùn)練好的模型上搞遷移學(xué)習(xí)呢?香港中文大學(xué)-商湯聯(lián)合實(shí)驗(yàn)...
閱讀 3326·2023-04-26 00:58
閱讀 1277·2021-09-22 16:04
閱讀 3323·2021-09-02 15:11
閱讀 1568·2019-08-30 15:55
閱讀 2348·2019-08-30 15:55
閱讀 3277·2019-08-23 18:41
閱讀 3470·2019-08-23 18:18
閱讀 2760·2019-08-23 17:53