摘要:獲得了年挑戰(zhàn)賽的第一名。網(wǎng)絡(luò)結(jié)構(gòu)特征卷積的主要目的是為了減少維度,還用于修正線性激活。在這些層之上,在每一個(gè)卷積層后都要做一個(gè)操作,以增加網(wǎng)絡(luò)的非線性特征。此舉也有利于減少過(guò)擬合的發(fā)生。
1. 介紹
? ? ? ?我們之前已經(jīng)講解過(guò) AlexNet,在這個(gè)基礎(chǔ)上我們來(lái)學(xué)習(xí)一下 GoogLeNet。 GoogLeNet 獲得了 2014 年 ImageNet 挑戰(zhàn)賽 (ILSVRC14) 的第一名。那么 GoogLeNet 是如何提升網(wǎng)絡(luò)性能的呢?
? ? ? ?一般來(lái)說(shuō),提升網(wǎng)絡(luò)性能最直接的辦法就是增加網(wǎng)絡(luò)深度和寬度,深度指網(wǎng)絡(luò)層次數(shù)量、寬度指神經(jīng)元數(shù)量。但這種方式存在以下問(wèn)題:
(1)參數(shù)太多,如果訓(xùn)練數(shù)據(jù)集有限,很容易產(chǎn)生過(guò)擬合;
(2)網(wǎng)絡(luò)越大、參數(shù)越多,計(jì)算復(fù)雜度越大,難以應(yīng)用;
(3)網(wǎng)絡(luò)越深,容易出現(xiàn)梯度彌散問(wèn)題(梯度越往后穿越容易消失),難以?xún)?yōu)化模型。
? ? ? ?解決這些問(wèn)題的方法當(dāng)然就是在增加網(wǎng)絡(luò)深度和寬度的同時(shí)減少參數(shù),為了減少參數(shù),自然就想到將全連接變成稀疏連接。但是在實(shí)現(xiàn)上,全連接變成稀疏連接后實(shí)際計(jì)算量并不會(huì)有質(zhì)的提升,因?yàn)榇蟛糠钟布轻槍?duì)密集矩陣計(jì)算優(yōu)化的,稀疏矩陣雖然數(shù)據(jù)量少,但是計(jì)算所消耗的時(shí)間卻很難減少。
? ? ? ?那么,有沒(méi)有一種方法既能保持網(wǎng)絡(luò)結(jié)構(gòu)的稀疏性,又能利用密集矩陣的高計(jì)算性能。大量的文獻(xiàn)表明可以將稀疏矩陣聚類(lèi)為較為密集的子矩陣來(lái)提高計(jì)算性能,就如人類(lèi)的大腦是可以看做是神經(jīng)元的重復(fù)堆積,因此,GoogLeNet 團(tuán)隊(duì)提出了 Inception 網(wǎng)絡(luò)結(jié)構(gòu),就是構(gòu)造一種“基礎(chǔ)神經(jīng)元”結(jié)構(gòu),來(lái)搭建一個(gè)稀疏性、高計(jì)算性能的網(wǎng)絡(luò)結(jié)構(gòu)。
? ? ? ?1x1 卷積的主要目的是為了減少維度,還用于修正線性激活(ReLU)。在 GoogLeNet 中,1×1 卷積用作降維模塊以減少計(jì)算。通過(guò)減少計(jì)算瓶頸,可以增加深度和寬度。
? ? ? ?我們通過(guò)一個(gè)小例子來(lái)解釋一下:
? ? ? ?假設(shè)我們需要在不使用 1×1 卷積的情況下執(zhí)行 5×5 卷積,如下所示:
計(jì)算的次數(shù)?
? ? ? ?使用 1×1 卷積:
1×1 卷積操作計(jì)算的次數(shù)?
5×5 卷積操作計(jì)算的次數(shù)
總的計(jì)算次數(shù) ?遠(yuǎn)小于 。
? ? ? ?原始 Inception 模塊(初級(jí)版本,沒(méi)有 1×1 卷積)如下:
? ? ? ?該結(jié)構(gòu)將 CNN 中常用的卷積(1x1,3x3,5x5)、池化操作(3x3)堆疊在一起(卷積、池化后的尺寸相同,將通道相加),一方面增加了網(wǎng)絡(luò)的寬度,另一方面也增加了網(wǎng)絡(luò)對(duì)尺度的適應(yīng)性。
網(wǎng)絡(luò)卷積層中的網(wǎng)絡(luò)能夠提取輸入的每一個(gè)細(xì)節(jié)信息,同時(shí) 5x5 的濾波器也能夠覆蓋大部分接受層的的輸入。還可以進(jìn)行一個(gè)池化操作,以減少空間大小,降低過(guò)度擬合。在這些層之上,在每一個(gè)卷積層后都要做一個(gè) ReLU 操作,以增加網(wǎng)絡(luò)的非線性特征。
? ? ? ?然而這個(gè) Inception 原始版本,所有的卷積核都在上一層的所有輸出上來(lái)做,而那個(gè) 5x5 的卷積核所需的計(jì)算量就太大了,造成了特征圖的厚度很大,為了避免這種情況,在 3x3 前、5x5 前、max pooling 后分別加上了 1x1 的卷積核,以起到了降低特征圖厚度的作用,這也就形成了 Inception v1 的網(wǎng)絡(luò)結(jié)構(gòu),如下圖所示:
? ? ? ?以前在網(wǎng)絡(luò)末端使用完全連接(FC)層,例如在 AlexNet 中所有輸入都連接到每個(gè)輸出,權(quán)重的數(shù)量 。
? ? ? ?在 GoogLeNet 中,通過(guò)將每個(gè)特征映射從 7×7 到 1×1 平均,幾乎在網(wǎng)絡(luò)末端使用全局平均池,如上圖所示,權(quán)重的數(shù)量 。作者發(fā)現(xiàn),從 FC 層到平均池的遷移將 top-1 精度提高了約 0.6%。此舉也有利于減少過(guò)擬合的發(fā)生。
? ? ? ?網(wǎng)絡(luò)中間引入了 softmax 分支,這些分支是輔助分類(lèi)器,由 5×5 Average,Pooling (Stride 3),1×1 Conv (128 filters),1024 FC,1000 FC,Softmax 構(gòu)成。它們只在訓(xùn)練的時(shí)候用到,測(cè)試的時(shí)候不用。損失以 0.3 的權(quán)重加到總損失。用于對(duì)抗梯度消失問(wèn)題,和提供正則化。
對(duì)上圖說(shuō)明如下:
(1)GoogLeNet 采用了模塊化的結(jié)構(gòu)(Inception 結(jié)構(gòu)),方便增添和修改;
(2)網(wǎng)絡(luò)最后采用了 average pooling(平均池化)來(lái)代替全連接層,該想法來(lái)自 NIN(Network in Network),事實(shí)證明這樣可以將準(zhǔn)確率提高 0.6%。但是,實(shí)際在最后還是加了一個(gè)全連接層,主要是為了方便對(duì)輸出進(jìn)行靈活調(diào)整;
(3)雖然移除了全連接,但是網(wǎng)絡(luò)中依然使用了 Dropout ;
(4)為了避免梯度消失,網(wǎng)絡(luò)額外增加了 2 個(gè)輔助的 softmax 用于向前傳導(dǎo)梯度(輔助分類(lèi)器)。輔助分類(lèi)器是將中間某一層的輸出用作分類(lèi),并按一個(gè)較小的權(quán)重(0.3)加到最終分類(lèi)結(jié)果中,這樣相當(dāng)于做了模型融合,同時(shí)給網(wǎng)絡(luò)增加了反向傳播的梯度信號(hào),也提供了額外的正則化,對(duì)于整個(gè)網(wǎng)絡(luò)的訓(xùn)練很有裨益。而在實(shí)際測(cè)試的時(shí)候,這兩個(gè)額外的 softmax 會(huì)被去掉。
GoogLeNet 的網(wǎng)絡(luò)結(jié)構(gòu)圖細(xì)節(jié):注:上表中的“#3x3 reduce”,“#5x5 reduce”表示在 3x3,5x5 卷積操作之前使用了 1x1 卷積的數(shù)量。
GoogLeNet 網(wǎng)絡(luò)結(jié)構(gòu)明細(xì)表解析如下:
0、輸入
原始輸入圖像為 224x224x3,且都進(jìn)行了零均值化的預(yù)處理操作(圖像每個(gè)像素減去均值)。
1、第一層(卷積層)
使用 7x7 的卷積核(滑動(dòng)步長(zhǎng) 2,padding 為 3),64 通道,輸出為 112x112x64,卷積后進(jìn)行 ReLU 操作
經(jīng)過(guò) 3x3 的 max pooling(步長(zhǎng)為 2),輸出為((112 - 3+1)/2)+1=56,即 56x56x64,再進(jìn)行 ReLU 操作
3、第二層(卷積層)
使用 3x3 的卷積核(滑動(dòng)步長(zhǎng)為 1,padding 為 1),192 通道,輸出為 56x56x192,卷積后進(jìn)行 ReLU 操作
經(jīng)過(guò) 3x3 的 max pooling(步長(zhǎng)為 2),輸出為((56 - 3+1)/2)+1=28,即 28x28x192,再進(jìn)行 ReLU 操作
3a、第三層(Inception 3a層)
分為四個(gè)分支,采用不同尺度的卷積核來(lái)進(jìn)行處理
(1)64 個(gè) 1x1 的卷積核,然后 ReLU ,輸出 28x28x64
(2)96 個(gè) 1x1 的卷積核,作為 3x3 卷積核之前的降維,變成 28x28x96,然后進(jìn)行 ReLU 計(jì)算,再進(jìn)行 128 個(gè) 3x3 的卷積(padding 為 1),輸出 28x28x128
(3)16 個(gè) 1x1 的卷積核,作為 5x5 卷積核之前的降維,變成 28x28x16,進(jìn)行 ReLU 計(jì)算后,再進(jìn)行 32 個(gè) 5x5 的卷積(padding 為 2),輸出 28x28x32
(4)pool 層,使用 3x3 的核(padding 為 1),輸出 28x28x192,然后進(jìn)行 32 個(gè) 1x1 的卷積,輸出 28x28x32。
將四個(gè)結(jié)果進(jìn)行連接,對(duì)這四部分輸出結(jié)果的第三維并聯(lián),即 64+128+32+32=256,最終輸出 28x28x256
3b、第三層(Inception 3b層)
(1)128 個(gè) 1x1 的卷積核,然后 ReLU,輸出 28x28x128
(2)128 個(gè) 1x1 的卷積核,作為 3x3 卷積核之前的降維,變成 28x28x128,進(jìn)行 ReLU,再進(jìn)行 192 個(gè) 3x3 的卷積(padding 為 1),輸出 28x28x192
(3)32 個(gè) 1x1 的卷積核,作為 5x5 卷積核之前的降維,變成 28x28x32,進(jìn)行 ReLU 計(jì)算后,再進(jìn)行 96 個(gè) 5x5 的卷積(padding 為 2),輸出 28x28x96
(4)pool 層,使用 3x3 的核(padding 為 1),輸出 28x28x256,然后進(jìn)行 64 個(gè) 1x1 的卷積,輸出 28x28x64。
將四個(gè)結(jié)果進(jìn)行連接,對(duì)這四部分輸出結(jié)果的第三維并聯(lián),即 128+192+96+64=480,最終輸出輸出為 28x28x480
第四層(4a,4b,4c,4d,4e)、第五層(5a,5b)……,與 3a、3b 類(lèi)似,在此就不再重復(fù)。
? ? ? ?目前,您可以在 Mo 平臺(tái)中找到基于 GoogLeNet 模型實(shí)現(xiàn)的 17 種花卉識(shí)別的 Flower 項(xiàng)目。您在學(xué)習(xí)的過(guò)程中,遇到困難或者發(fā)現(xiàn)我們的錯(cuò)誤,可以通過(guò) Mo 平臺(tái)或微信公眾號(hào) MomodelAI 聯(lián)系我們。
項(xiàng)目源碼地址:https://momodel.cn/explore/5d258bfa1afd942ff7b1f521?type=app
? ? ? ?總結(jié)一下 GoogLeNet 的主要貢獻(xiàn):
提出 Inception 模塊并對(duì)其優(yōu)化
取消全連接層
運(yùn)用輔助分類(lèi)器加速網(wǎng)絡(luò)收斂
[](#U43ym)5. 參考資料論文:https://arxiv.org/abs/1409.4842
博客:https://blog.csdn.net/Quincuntial/article/details/76457409
數(shù)據(jù)集:http://www.robots.ox.ac.uk/~vgg/data/flowers/17/
博客:https://my.oschina.net/u/876354/blog/1637819
博客:https://medium.com/coinmonks/paper-review-of-googlenet-inception-v1-winner-of-ilsvlc-2014-image-classification-c2b3565a64e7
Mo(網(wǎng)址:momodel.cn)是一個(gè)支持 Python 的人工智能在線建模平臺(tái),能幫助你快速開(kāi)發(fā)、訓(xùn)練并部署模型。
Mo 人工智能俱樂(lè)部?是由網(wǎng)站的研發(fā)與產(chǎn)品設(shè)計(jì)團(tuán)隊(duì)發(fā)起、致力于降低人工智能開(kāi)發(fā)與使用門(mén)檻的俱樂(lè)部。團(tuán)隊(duì)具備大數(shù)據(jù)處理分析、可視化與數(shù)據(jù)建模經(jīng)驗(yàn),已承擔(dān)多領(lǐng)域智能項(xiàng)目,具備從底層到前端的全線設(shè)計(jì)開(kāi)發(fā)能力。主要研究方向?yàn)榇髷?shù)據(jù)管理分析與人工智能技術(shù),并以此來(lái)促進(jìn)數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究。
目前俱樂(lè)部每周六在杭州舉辦以機(jī)器學(xué)習(xí)為主題的線下技術(shù)沙龍活動(dòng),不定期進(jìn)行論文分享與學(xué)術(shù)交流。希望能匯聚來(lái)自各行各業(yè)對(duì)人工智能感興趣的朋友,不斷交流共同成長(zhǎng),推動(dòng)人工智能民主化、應(yīng)用普及化。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/45212.html
摘要:靚文推薦以上介紹的就是最原始最開(kāi)始的,也叫,年提出的。在經(jīng)過(guò)多年的改進(jìn)后也有幾個(gè)延伸版本了如使用了的版本,借鑒了的版本,這里也不再細(xì)講,只推薦幾篇我認(rèn)為比較好的靚文各層的詳細(xì)設(shè)定及其延伸版本更多自尋 咕了一個(gè)多月后終于重新變成人,今天我們就來(lái)談?wù)? 咕咕net(GoogLeNet) 的結(jié)構(gòu),在下次咕咕(大表哥2)之前掙扎一下。 GoogLeNet初始的想法很簡(jiǎn)單,大力出奇跡,即通過(guò)增...
摘要:靚文推薦以上介紹的就是最原始最開(kāi)始的,也叫,年提出的。在經(jīng)過(guò)多年的改進(jìn)后也有幾個(gè)延伸版本了如使用了的版本,借鑒了的版本,這里也不再細(xì)講,只推薦幾篇我認(rèn)為比較好的靚文各層的詳細(xì)設(shè)定及其延伸版本更多自尋 咕了一個(gè)多月后終于重新變成人,今天我們就來(lái)談?wù)? 咕咕net(GoogLeNet) 的結(jié)構(gòu),在下次咕咕(大表哥2)之前掙扎一下。 GoogLeNet初始的想法很簡(jiǎn)單,大力出奇跡,即通過(guò)增...
閱讀 2900·2021-11-15 11:39
閱讀 1888·2021-09-24 09:48
閱讀 1074·2021-09-22 15:36
閱讀 3599·2021-09-10 11:22
閱讀 3067·2021-09-07 09:59
閱讀 960·2021-09-03 10:28
閱讀 681·2021-09-02 15:15
閱讀 2750·2021-08-27 16:24