摘要:本文提出的網(wǎng)絡(luò)名為,意為維度基數(shù)。在空間通道維度分解網(wǎng)絡(luò),減少冗余,可以對網(wǎng)絡(luò)進行加速或精簡。復(fù)雜度不變的情況下,隨著基數(shù)的增大錯誤率持續(xù)減小。考察增加深度寬度基數(shù)對網(wǎng)絡(luò)性能的提升。
ResNeXt
Aggregated Residual Transformations for Deep Neural Networks
Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He
Caffe實現(xiàn):https://github.com/binLearnin...
摘要本文提出一種高度模塊化并易于搭建的網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)中使用的基本構(gòu)件(building block)都是一組具有相同拓?fù)浣Y(jié)構(gòu)的變換的聚合。這種同結(jié)構(gòu)多分支的設(shè)計理念只需要設(shè)置很少的超參數(shù)。本文提出的策略也引入了一個新的維度——“基數(shù)(cardinality)”,也就是同屬一個block的變換的數(shù)量,這是一個和網(wǎng)絡(luò)深度、寬度同等重要的因素。通過在ImageNet-1K數(shù)據(jù)集上的實驗可以發(fā)現(xiàn),在保持網(wǎng)絡(luò)復(fù)雜度不變的前提下,增大基數(shù)可以提高分類準(zhǔn)確率。另外通過增大基數(shù)來提升網(wǎng)絡(luò)能力比深度、寬度更有效。本文提出的模型稱為ResNeXt,是我們參加ILSVRC2016分類任務(wù)時提交的解決方案的基礎(chǔ),另外也在ImageNet-5K和COCO檢測數(shù)據(jù)集上對ResNeXt進行考察,發(fā)現(xiàn)ResNeXt的效果要優(yōu)于相應(yīng)的ResNet。官方實現(xiàn)(Torch)的源碼地址:https://github.com/facebookre... 。
1. Introduction視覺識別領(lǐng)域的研究正在經(jīng)歷從“特征工程”到“網(wǎng)絡(luò)工程”的轉(zhuǎn)變?,F(xiàn)在研究人員的主要精力轉(zhuǎn)向于設(shè)計可以學(xué)習(xí)到更好的表示的網(wǎng)絡(luò)架構(gòu)。
隨著超參數(shù)(如寬度(網(wǎng)絡(luò)層的通道數(shù))、濾波器尺寸、步幅等)數(shù)量的增加,設(shè)計架構(gòu)也變得越來越困難。而VGG網(wǎng)絡(luò)的成功說明使用簡單但有效的策略(堆疊相同結(jié)構(gòu)的基本構(gòu)件)也可以構(gòu)建比較深層的網(wǎng)絡(luò),這個策略在ResNet中也得以沿用,ResNet中堆疊的block也都是相同的拓?fù)浣Y(jié)構(gòu)。簡單的設(shè)計規(guī)則可以減少對超參數(shù)的選取,而深度是神經(jīng)網(wǎng)絡(luò)中一個至關(guān)重要的維度。另外,使用簡單的設(shè)計規(guī)則可以降低所選取的超參數(shù)過度適應(yīng)某些特定數(shù)據(jù)集的風(fēng)險,VGG網(wǎng)絡(luò)和ResNet網(wǎng)絡(luò)在多種視覺/非視覺任務(wù)上都很魯棒。
不同于VGG網(wǎng)絡(luò),Inception模型通過精心設(shè)計網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),在保持模型復(fù)雜度較低的前提下也取得了很高的準(zhǔn)確率。所有Inception模型都具有一個重要的性質(zhì)——都是遵循 拆分-變換-合并(split-transform-merge) 的設(shè)計策略。Inception模型中block的輸入會先被拆分成若干低維編碼(使用1x1卷積實現(xiàn)),然后經(jīng)過多個不同的濾波器(如3x3、5x5等)進行轉(zhuǎn)換,最后通過沿通道維度串聯(lián)的方式合并。這種設(shè)計策略希望在保持網(wǎng)絡(luò)計算復(fù)雜度相當(dāng)?shù)偷那疤嵯芦@取與包含大量且密集的層的網(wǎng)絡(luò)具有相同的表示能力。
但是,Inception模型實現(xiàn)起來很麻煩,它包含一系列復(fù)雜的超參——每個變換的濾波器的尺寸和數(shù)量都需要指定,不同階段的模塊也需要定制。太多的超參數(shù)大多的影響因素,如何將Inception模型調(diào)整到適合不同的數(shù)據(jù)集/任務(wù)變得很不明晰。
本文同時借鑒VGG/ResNet網(wǎng)絡(luò)中重復(fù)使用同結(jié)構(gòu)模塊以及Inception模型的拆分-變換-合并的策略來簡明的構(gòu)建深層網(wǎng)絡(luò),具體見圖1-right。這樣的設(shè)計可以隨意調(diào)整變換的規(guī)模。
這種設(shè)計策略還有兩種等價形式(見圖3)。圖3(b)中的形式很像Inception-ResNet網(wǎng)絡(luò)中的模塊,不同的是每個分支都具有相同的拓?fù)浣Y(jié)構(gòu);圖3(c)與AlexNet中分組卷積(grouped convolutions)的理念相似,然而AlexNet使用分組卷積是受限于當(dāng)時的硬件條件。
基數(shù)是與深度、寬度同樣重要的維度,實驗證明通過增大基數(shù)來提升網(wǎng)絡(luò)性能比深度、寬度更有效,尤其是當(dāng)深度/寬度的影響開始出現(xiàn)衰減時。
本文提出的網(wǎng)絡(luò)名為ResNeXt,意為next維度(基數(shù))。
Multi-branch convolutional networks
多分支結(jié)構(gòu)如Inception模型,ResNet可視為兩個分支(其中一個是恒等映射),還有樹狀多分支結(jié)構(gòu)的深度神經(jīng)決策森林(Deep neural decision forests)。
Grouped convolutions
分組卷積可以追溯到AlexNet,將模型拆分放到兩個GPU中進行訓(xùn)練。Caffe、Torch等都支持分組卷積,主要也是為了兼容之前的AlexNet。我們沒有發(fā)現(xiàn)證明分組卷積可以提高準(zhǔn)確率的依據(jù)。一個分組卷積的特例是逐通道卷積,它是可分離卷積的一部分。
Compressing convolutional networks
在空間/通道維度分解網(wǎng)絡(luò),減少冗余,可以對網(wǎng)絡(luò)進行加速或精簡。我們的方法具有更高的表示能力,而不著重于壓縮。
Ensembling
綜合多個獨立訓(xùn)練的網(wǎng)絡(luò)的預(yù)測可有效提高準(zhǔn)確率,這種集成的方法在競賽中被廣泛使用。Veit等人(Residual networks behave like ensembles of relatively shallow network)指出ResNet網(wǎng)絡(luò)內(nèi)部的表現(xiàn)就如同是多個淺層網(wǎng)絡(luò)的集成,ResNet-v2中的加法操作具有集成的意義。本文提出的方法也是用加法操作將變換組合聚合成一個深層網(wǎng)絡(luò),但是我們覺得認(rèn)為殘差網(wǎng)絡(luò)的行為像集成學(xué)習(xí)是不嚴(yán)謹(jǐn)?shù)?,因為網(wǎng)絡(luò)中的成員是同時訓(xùn)練,而不是獨立訓(xùn)練所得。
使用如VGG/ResNet網(wǎng)絡(luò)相似的高度模塊化的設(shè)計理念,網(wǎng)絡(luò)由一系列殘差block堆疊而成,并遵循兩個簡單的規(guī)則:(i)如果block輸出的特征圖的空間尺寸相同,那么它們具有相同的超參數(shù)(寬度、濾波器尺寸等);(ii)如果特征圖的空間維度減半,那么block的寬度(通道數(shù))加倍,第二條規(guī)則確保了所有block的計算復(fù)雜度基本相同。
根據(jù)上述兩條規(guī)則可以設(shè)計一個模板模塊,網(wǎng)絡(luò)中的所有模塊都可以照此設(shè)計。這兩條規(guī)則也減少了超參數(shù)的選擇,讓我們可以專注于考察幾個關(guān)鍵因素即可。遵循這些規(guī)則設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
最簡單的人工神經(jīng)元就是執(zhí)行內(nèi)積(權(quán)值相加),實現(xiàn)元素級轉(zhuǎn)換。內(nèi)積可以表示成轉(zhuǎn)換的聚合形式:
如圖2中所示,內(nèi)積操作可以分為拆分(splitting)、變換(transforming)、聚合(aggregating)。
將內(nèi)積中的基本變換替換成更一般的函數(shù),比如一個網(wǎng)絡(luò)結(jié)構(gòu),那么聚合變換變成:
公式(2)中的C表示變換的規(guī)模,稱之為基數(shù)。C可以是任意值,它的取值控制著更復(fù)雜變換的規(guī)模。
本文中所有的變換Ti都具有相同的拓?fù)浣Y(jié)構(gòu),如圖1-right所示。
那么公式(2)中的聚合變換就是殘差函數(shù):
Relation to Inception-ResNet
ResNeXt中的模塊結(jié)構(gòu)(圖3(a))與Inception-ResNet的模塊結(jié)構(gòu)(圖3(b))相似,不同的是ResNeXt中的模塊都是相同的拓?fù)浣Y(jié)構(gòu)。
Relation to Grouped Convolutions
使用分組卷積可以將上述模塊的結(jié)構(gòu)進一步簡化,如圖3(c)所示。所有低維的編碼(第一個1x1層)可以由一個更寬的層替代,因為分組卷積會將輸入張量在通道維度上拆分成不同組然后進行處理,然后將處理后的張量連接起來作為輸出。這種block與ResNet中原始block的形式(圖1-left)很相似,不同的是這些block更寬,并且是稀疏連接的。
我們注意到只有block的深度大于2時才可以重新組織得到不同以往的拓?fù)浣Y(jié)構(gòu),而深度只有2的block(見圖4)重新組織也只是寬一些密集一些的模塊。
另外需要注意的是各小分支的變換不一定就是像圖3中所示都是相同拓?fù)浣Y(jié)構(gòu)的,它們也可以是任意不同形式的變換。本文選取同結(jié)構(gòu)的形式是為了使網(wǎng)絡(luò)更加簡潔已經(jīng)易擴展,在這種情況下就可以像圖3(c)中所示使用分組卷積很容易的實現(xiàn)ResNeXt。
3.4 Model CapacityResNeXt在保持模型復(fù)雜度和參數(shù)規(guī)模不變的情況下提升了模型準(zhǔn)確率。復(fù)雜度和參數(shù)數(shù)量可以用來評估模型的表示能力,在考察深度網(wǎng)絡(luò)時基本都會用到。當(dāng)考察相同復(fù)雜度下不同的基數(shù)C對模型性能的影響時,為了減少需要修改的超參數(shù)量,我們選取修改bottleneck(3x3卷積層)的寬度(通道數(shù)量)來適應(yīng)基數(shù)的變化,因為它獨立于block的輸入/輸出,這樣就不需要對其他的超參數(shù)(如block的深度、輸入/輸出的寬度等)。
在圖1-left中,原來的ResNet的block的參數(shù)數(shù)量有256*64+3*3*64*64+64*256≈70k,當(dāng)ResNeXt基數(shù)為C,bottleneck層寬度為d時(圖1-right),參數(shù)數(shù)量為:
當(dāng)C=32,d=4時公式(4)約等于70k,與原來的模型基本相同,表2展示了C與d的關(guān)系。
表1比較了具有相似復(fù)雜度的ResNet-50和ResNeXt-50,雖然復(fù)雜度只是大致相似,但之間的差異很小不至于影響結(jié)果。
4. Implementation details維度增加(空間尺寸減?。r沿用ResNet中的B方案,但是卷積核由1x1變?yōu)?x3,步幅仍然為2。本文實現(xiàn)的方案選取了如圖3(c)中的形式,block內(nèi)部的設(shè)計(權(quán)值層與BN、ReLU的位置安排)按照ResNet方式,而不是ResNet-v2方式。圖3中三種方案是等價的,我們訓(xùn)練了三種形式都得到了相同的結(jié)果,選取3(c)來實現(xiàn)是因為這個方案更簡潔,運行速度也更快。
5. Experiments 5.1 Experiments on ImageNet-1KCardinality vs. Width
首先考察基數(shù)對模型性能的影響。結(jié)果見表3,訓(xùn)練曲線見圖5。
復(fù)雜度不變的情況下,隨著基數(shù)的增大錯誤率持續(xù)減小。ResNeXt的訓(xùn)練誤差比ResNet的要小,說明性能的提升是來源于更強的表示能力而不是正則化。從表3中可以看出,當(dāng)bottleneck的寬度很小時,增加基數(shù)對模型性能的提升趨于飽和,所以bottleneck寬度的選取一般不小于4d。
Increasing Cardinality vs. Deeper/Wider
考察增加深度/寬度/基數(shù)對網(wǎng)絡(luò)性能的提升。具體表現(xiàn)見表4。
從表4中可以看出,通過增大基數(shù)來提升網(wǎng)絡(luò)能力比深度、寬度更有效。
Performance
Torch對分組卷積的實現(xiàn)優(yōu)化不理想,運行開支比較大。
Comparisons with state-of-the-art results
表5展示了ResNeXt與各種之前最先進的模型的性能對比。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/19629.html
摘要:和是兩個非常重要的網(wǎng)絡(luò),它們顯示了深層卷積神經(jīng)網(wǎng)絡(luò)的能力,并且指出使用極小的卷積核可以提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。也有工作考察與的關(guān)系,與其相似,本文考察了與的關(guān)系。與的網(wǎng)絡(luò)架構(gòu)配置以及復(fù)雜度見表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...
摘要:和分別引進了深度分離卷積和分組卷積來權(quán)衡模型表示能力與計算量。在通道數(shù)量上使用縮放因子來調(diào)節(jié)網(wǎng)絡(luò)復(fù)雜度,文中以表示。的基礎(chǔ)是逐點分組卷積和通道重排,分別考察這兩者的作用。 ShuffleNet ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile DevicesXiangyu Zhang, ...
摘要:前面層中的以類別無關(guān)的方式增強可共享的低層表示的質(zhì)量。通過調(diào)整網(wǎng)絡(luò)各層間的連接機制來提升深層網(wǎng)絡(luò)的學(xué)習(xí)和表示性能。基本都是常規(guī)處理和訓(xùn)練設(shè)置。根據(jù)輸入動態(tài)調(diào)整各通道的特征,增強網(wǎng)絡(luò)的表示能力。 SENet Squeeze-and-Excitation NetworksJie Hu, Li Shen, Gang Sun 摘要 卷積神經(jīng)網(wǎng)絡(luò)顧名思義就是依賴卷積操作,使用局部感受區(qū)域(loc...
摘要:一個簡單的解釋是,在論文和論文中,恒等映射的輸出被添加到下一個模塊,如果兩個層的特征映射有著非常不同的分布,那么這可能會阻礙信息流。 在 AlexNet [1] 取得 LSVRC 2012 分類競賽冠軍之后,深度殘差網(wǎng)絡(luò)(Residual Network, 下文簡寫為 ResNet)[2] 可以說是過去幾年中計算機視覺和深度學(xué)習(xí)領(lǐng)域最具開創(chuàng)性的工作。ResNet 使訓(xùn)練數(shù)百甚至數(shù)千層成為可能...
摘要:在這里,代表照片,也就是形狀為的矩陣,是圖像被標(biāo)記的分?jǐn)?shù)。我首先使用這張照片我的分?jǐn)?shù)是,這意味著我的顏值比數(shù)據(jù)集中的人高。我拍了很多照片,最終我得到了分,這意味著我比數(shù)據(jù)集中的人更具吸引力。 什么?!顏值客觀化要進行實質(zhì)性推進了?幾個月前,華南理工大學(xué)發(fā)布了一篇關(guān)于顏值評估的論文及其數(shù)據(jù)集。這個數(shù)據(jù)集包括5500人,每人的長相被從1-5分進行打分。數(shù)據(jù)的下載地址如下:https://gith...
閱讀 1323·2021-09-22 15:00
閱讀 3315·2019-08-30 14:00
閱讀 1232·2019-08-29 17:27
閱讀 1228·2019-08-29 16:35
閱讀 702·2019-08-29 16:14
閱讀 2048·2019-08-26 13:43
閱讀 2129·2019-08-26 11:35
閱讀 2314·2019-08-23 15:34