成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

計(jì)算機(jī)視覺(jué)和 CNN 發(fā)展十一座里程碑

劉厚水 / 3370人閱讀

摘要:從到,計(jì)算機(jī)視覺(jué)領(lǐng)域和卷積神經(jīng)網(wǎng)絡(luò)每一次發(fā)展,都伴隨著代表性架構(gòu)取得歷史性的成績(jī)。在這篇文章中,我們將總結(jié)計(jì)算機(jī)視覺(jué)和卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域的重要進(jìn)展,重點(diǎn)介紹過(guò)去年發(fā)表的重要論文并討論它們?yōu)槭裁粗匾?。這個(gè)表現(xiàn)不用說(shuō)震驚了整個(gè)計(jì)算機(jī)視覺(jué)界。

從AlexNet到ResNet,計(jì)算機(jī)視覺(jué)領(lǐng)域和卷積神經(jīng)網(wǎng)絡(luò)(CNN)每一次發(fā)展,都伴隨著代表性架構(gòu)取得歷史性的成績(jī)。作者回顧計(jì)算機(jī)視覺(jué)和CNN過(guò)去5年,總結(jié)了他認(rèn)為不可錯(cuò)過(guò)的標(biāo)志模型。

在這篇文章中,我們將總結(jié)計(jì)算機(jī)視覺(jué)和卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域的重要進(jìn)展,重點(diǎn)介紹過(guò)去5年發(fā)表的重要論文并討論它們?yōu)槭裁粗匾?。?AlexNet 到 ResNet 主要講基本網(wǎng)絡(luò)架構(gòu)的發(fā)展,余下則是各領(lǐng)域的重要文章,包括對(duì)抗生成網(wǎng)絡(luò)、生成圖像描述模型。

本文結(jié)構(gòu)如下:

AlexNet(2012年)

ZF Net(2013年)

VGG Net(2014年)

GoogLeNet (2015年)

微軟 ResNet (2015年)

區(qū)域 CNN(R-CNN - 2013年,F(xiàn)ast R-CNN - 2015年,F(xiàn)aster R-CNN - 2015年)

生成對(duì)抗網(wǎng)絡(luò)(2014年)

生成圖像描述(2014年)

空間轉(zhuǎn)化器網(wǎng)絡(luò)(2015年)

AlexNet(2012年)

一切都從這里開(kāi)始(盡管有些人會(huì)說(shuō)是Yann LeCun 1998年發(fā)表的那篇論文才真正開(kāi)啟了一個(gè)時(shí)代)。這篇論文,題目叫做“ImageNet Classification with Deep Convolutional Networks”,迄今被引用6184次,被業(yè)內(nèi)普遍視為行業(yè)最重要的論文之一。Alex Krizhevsky、Ilya Sutskever和 Geoffrey Hinton創(chuàng)造了一個(gè)“大型的深度卷積神經(jīng)網(wǎng)絡(luò)”,贏得了2012 ILSVRC(2012年ImageNet 大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽)。稍微介紹一下,這個(gè)比賽被譽(yù)為計(jì)算機(jī)視覺(jué)的年度奧林匹克競(jìng)賽,全世界的團(tuán)隊(duì)相聚一堂,看看是哪家的視覺(jué)模型表現(xiàn)更為出色。2012年是CNN首次實(shí)現(xiàn)Top 5誤差率15.4%的一年(Top 5誤差率是指給定一張圖像,其標(biāo)簽不在模型認(rèn)為最有可能的5個(gè)結(jié)果中的幾率),當(dāng)時(shí)的次優(yōu)項(xiàng)誤差率為26.2%。這個(gè)表現(xiàn)不用說(shuō)震驚了整個(gè)計(jì)算機(jī)視覺(jué)界??梢哉f(shuō),是自那時(shí)起,CNN才成了家喻戶曉的名字。

論文中,作者討論了網(wǎng)絡(luò)的架構(gòu)(名為AlexNet)。相比現(xiàn)代架構(gòu),他們使用了一種相對(duì)簡(jiǎn)單的布局,整個(gè)網(wǎng)絡(luò)由5層卷積層組成,較大池化層、退出層(dropout layer)和3層全卷積層。網(wǎng)絡(luò)能夠?qū)?000種潛在類別進(jìn)行分類。

AlexNet 架構(gòu):看上去有些奇怪,因?yàn)槭褂昧藘膳_(tái)GPU訓(xùn)練,因而有兩股“流”。使用兩臺(tái)GPU訓(xùn)練的原因是計(jì)算量太大,只能拆開(kāi)來(lái)。

要點(diǎn)

使用ImageNet數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),ImageNet數(shù)據(jù)庫(kù)含有1500多萬(wàn)個(gè)帶標(biāo)記的圖像,超過(guò)2.2萬(wàn)個(gè)類別。

使用ReLU代替?zhèn)鹘y(tǒng)正切函數(shù)引入非線性(ReLU比傳統(tǒng)正切函數(shù)快幾倍,縮短訓(xùn)練時(shí)間)。

使用了圖像轉(zhuǎn)化(image translation)、水平反射(horizontal reflection)和補(bǔ)丁提取(patch extraction)這些數(shù)據(jù)增強(qiáng)技術(shù)。

用dropout層應(yīng)對(duì)訓(xùn)練數(shù)據(jù)過(guò)擬合的問(wèn)題。

使用批處理隨機(jī)梯度下降訓(xùn)練模型,注明動(dòng)量衰減值和權(quán)重衰減值。

使用兩臺(tái)GTX 580 GPU,訓(xùn)練了5到6天

為什么重要?

Krizhevsky、Sutskever 和 Hinton 2012年開(kāi)發(fā)的這個(gè)神經(jīng)網(wǎng)絡(luò),是CNN在計(jì)算機(jī)視覺(jué)領(lǐng)域的一大亮相。這是史上第一次有模型在ImageNet 數(shù)據(jù)庫(kù)表現(xiàn)這么好,ImageNet 數(shù)據(jù)庫(kù)難度是出了名的。論文中提出的方法,比如數(shù)據(jù)增強(qiáng)和dropout,現(xiàn)在也在使用,這篇論文真正展示了CNN的優(yōu)點(diǎn),并且以破紀(jì)錄的比賽成績(jī)實(shí)打?qū)嵉刈鲋巍?/p>

ZF Net(2013年)

2012年AlexNet出盡了風(fēng)頭,ILSVRC 2013就有一大批CNN模型冒了出來(lái)。2013年的冠軍是紐約大學(xué)Matthew Zeiler 和 Rob Fergus設(shè)計(jì)的網(wǎng)絡(luò) ZF Net,錯(cuò)誤率 11.2%。ZF Net模型更像是AlexNet架構(gòu)的微調(diào)優(yōu)化版,但還是提出了有關(guān)優(yōu)化性能的一些關(guān)鍵想法。還有一個(gè)原因,這篇論文寫(xiě)得非常好,論文作者花了大量時(shí)間闡釋有關(guān)卷積神經(jīng)網(wǎng)絡(luò)的直觀概念,展示了將濾波器和權(quán)重可視化的正確方法。

在這篇題為“Visualizing and Understanding Convolutional Neural Networks”的論文中,Zeiler和Fergus從大數(shù)據(jù)和GPU計(jì)算力讓人們重拾對(duì)CNN的興趣講起,討論了研究人員對(duì)模型內(nèi)在機(jī)制知之甚少,一針見(jiàn)血地指出“發(fā)展更好的模型實(shí)際上是不斷試錯(cuò)的過(guò)程”。雖然我們現(xiàn)在要比3年前知道得多一些了,但論文所提出的問(wèn)題至今仍然存在!這篇論文的主要貢獻(xiàn)在于提出了一個(gè)比AlexNet稍微好一些的模型并給出了細(xì)節(jié),還提供了一些制作可視化特征圖值得借鑒的方法。

要點(diǎn)

除了一些小的修改,整體架構(gòu)非常類似AlexNet。

AlexNet訓(xùn)練用了1500萬(wàn)張圖片,而ZFNet只用了130萬(wàn)張。

AlexNet在第一層中使用了大小為11×11的濾波器,而ZF使用的濾波器大小為7x7,整體處理速度也有所減慢。做此修改的原因是,對(duì)于輸入數(shù)據(jù)來(lái)說(shuō),第一層卷積層有助于保留大量的原始象素信息。11×11的濾波器漏掉了大量相關(guān)信息,特別是因?yàn)檫@是第一層卷積層。

隨著網(wǎng)絡(luò)增大,使用的濾波器數(shù)量增多。

利用ReLU的激活函數(shù),將交叉熵代價(jià)函數(shù)作為誤差函數(shù),使用批處理隨機(jī)梯度下降進(jìn)行訓(xùn)練。

使用一臺(tái)GTX 580 GPU訓(xùn)練了12天。

開(kāi)發(fā)可視化技術(shù)“解卷積網(wǎng)絡(luò)”(Deconvolutional Network),有助于檢查不同的特征激活和其對(duì)輸入空間關(guān)系。名字之所以稱為“deconvnet”,是因?yàn)樗鼘⑻卣饔成涞较袼兀ㄅc卷積層恰好相反)。

DeConvNet

DeConvNet工作的基本原理是,每層訓(xùn)練過(guò)的CNN后面都連一層“deconvet”,它會(huì)提供一條返回圖像像素的路徑。輸入圖像進(jìn)入CNN之后,每一層都計(jì)算激活。然而向前傳遞?,F(xiàn)在,假設(shè)我們想知道第4層卷積層某個(gè)特征的激活值,我們將保存這個(gè)特征圖的激活值,并將這一層的其他激活值設(shè)為0,再將這張?zhí)卣鲌D作為輸入送入deconvnet。Deconvnet與原來(lái)的CNN擁有同樣的濾波器。輸入經(jīng)過(guò)一系列unpool(maxpooling倒過(guò)來(lái)),修正,對(duì)前一層進(jìn)行過(guò)濾操作,直到輸入空間滿。

這一過(guò)程背后的邏輯在于,我們想要知道是激活某個(gè)特征圖的是什么結(jié)構(gòu)。下面來(lái)看第一層和第二層的可視化。

ConvNet的第一層永遠(yuǎn)是低層特征檢測(cè)器,在這里就是對(duì)簡(jiǎn)單的邊緣、顏色進(jìn)行檢測(cè)。第二層就有比較圓滑的特征了。再來(lái)看第三、第四和第五層。

這些層展示出了更多的高級(jí)特征,比如狗的臉和鮮花。值得一提的是,在第一層卷積層后面,我們通常會(huì)跟一個(gè)池化層將圖像縮?。ū热鐚?32x32x32 變?yōu)?6x16x3)。這樣做的效果是加寬了第二層看原始圖像的視野。更詳細(xì)的內(nèi)容可以閱讀論文。

為什么重要?

ZF Net不僅是2013年比賽的冠軍,還對(duì)CNN的運(yùn)作機(jī)制提供了極好的直觀信息,展示了更多提升性能的方法。論文所描述的可視化方法不僅有助于弄清CNN的內(nèi)在機(jī)理,也為優(yōu)化網(wǎng)絡(luò)架構(gòu)提供了有用的信息。Deconv可視化方法和 occlusion 實(shí)驗(yàn)也讓這篇論文成了我個(gè)人的最愛(ài)。

VGG Net(2015年)

簡(jiǎn)單、有深度,這就是2014年錯(cuò)誤率7.3%的模型VGG Net(不是ILSVRC 2014冠軍)。牛津大學(xué)的Karen Simonyan 和 Andrew Zisserman Main Points創(chuàng)造了一個(gè)19層的CNN,嚴(yán)格使用3x3的過(guò)濾器(stride =1,pad= 1)和2x2 maxpooling層(stride =2)。簡(jiǎn)單吧?

要點(diǎn)

這里使用3x3的濾波器和AlexNet在第一層使用11x11的濾波器和ZF Net 7x7的濾波器作用完全不同。作者認(rèn)為兩個(gè)3x3的卷積層組合可以實(shí)現(xiàn)5x5的有效感受野。這就在保持濾波器尺寸較小的同時(shí)模擬了大型濾波器,減少了參數(shù)。此外,有兩個(gè)卷積層就能夠使用兩層ReLU。

3卷積層具有7x7的有效感受野。

每個(gè)maxpool層后濾波器的數(shù)量增加一倍。進(jìn)一步加強(qiáng)了縮小空間尺寸,但保持深度增長(zhǎng)的想法。

圖像分類和定位任務(wù)都運(yùn)作良好。

使用Caffe工具包建模。

訓(xùn)練中使用scale jittering的數(shù)據(jù)增強(qiáng)技術(shù)。

每層卷積層后使用ReLU層和批處理梯度下降訓(xùn)練。

使用4臺(tái)英偉達(dá)Titan Black GPU訓(xùn)練了兩到三周。

為什么重要?

在我看來(lái),VGG Net是最重要的模型之一,因?yàn)樗俅螐?qiáng)調(diào)CNN必須夠深,視覺(jué)數(shù)據(jù)的層次化表示才有用。深的同時(shí)結(jié)構(gòu)簡(jiǎn)單。

GoogLeNet(2015年)

理解了我們剛才所說(shuō)的神經(jīng)網(wǎng)絡(luò)架構(gòu)中的簡(jiǎn)化的概念了嗎?通過(guò)推出 Inception 模型,谷歌從某種程度上把這一概念拋了出來(lái)。GoogLeNet是一個(gè)22層的卷積神經(jīng)網(wǎng)絡(luò),在2014年的ILSVRC2014上憑借6.7%的錯(cuò)誤率進(jìn)入Top 5。據(jù)我所知,這是第一個(gè)真正不使用通用方法的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的方法是簡(jiǎn)單堆疊卷積層,然后把各層以序列結(jié)構(gòu)堆積起來(lái)。論文的作者也強(qiáng)調(diào),這種新的模型重點(diǎn)考慮了內(nèi)存和能量消耗。這一點(diǎn)很重要,我自己也會(huì)經(jīng)常忽略:把所有的層都堆疊、增加大量的濾波器,在計(jì)算和內(nèi)存上消耗很大,過(guò)擬合的風(fēng)險(xiǎn)也會(huì)增加。

換一種方式看 GoogLeNet:

Inception 模型

第一次看到GoogLeNet的構(gòu)造時(shí),我們立刻注意到,并不是所有的事情都是按照順序進(jìn)行的,這與此前看到的架構(gòu)不一樣。我們有一些網(wǎng)絡(luò),能同時(shí)并行發(fā)生反應(yīng)。

這個(gè)盒子被稱為 Inception 模型??梢越嚯x地看看它的構(gòu)成。

底部的綠色盒子是我們的輸入層,頂部的是輸出層(把這張圖片向右旋轉(zhuǎn)90度,你會(huì)看到跟展示了整個(gè)網(wǎng)絡(luò)的那張圖片相對(duì)應(yīng)的模型)。基本上,在一個(gè)傳統(tǒng)的卷積網(wǎng)絡(luò)中的每一層中,你必須選擇操作池還是卷積操作(還要選擇濾波器的大?。nception 模型能讓你做到的就是并行地執(zhí)行所有的操作。事實(shí)上,這就是作者構(gòu)想出來(lái)的最“初始”的想法。

現(xiàn)在,來(lái)看看它為什么起作用。它會(huì)導(dǎo)向許多不同的結(jié)果,我們會(huì)最后會(huì)在輸出層體積上獲得極端大的深度通道。作者處理這個(gè)問(wèn)題的方法是,在3X3和5X5層前,各自增加一個(gè)1X1的卷積操作。1X1的卷積(或者網(wǎng)絡(luò)層中的網(wǎng)絡(luò)),提供了一個(gè)減少維度的方法。比如,我們假設(shè)你擁有一個(gè)輸入層,體積是100x100x60(這并不定是圖像的三個(gè)維度,只是網(wǎng)絡(luò)中每一層的輸入)。增加20個(gè)1X1的卷積濾波器,會(huì)讓你把輸入的體積減小到100X100X20。這意味著,3X3層和5X5層不需要處理輸入層那么大的體積。這可以被認(rèn)為是“池特征”(pooling of feature),因?yàn)槲覀冋跍p少體積的高度,這和使用常用的較大池化層(maxpooling layers)減少寬度和長(zhǎng)度類似。另一個(gè)需要注意的是,這些1X1的卷積層后面跟著的是ReLU 單元,這肯定不會(huì)有害。

你也許會(huì)問(wèn),“這個(gè)架構(gòu)有什么用?”這么說(shuō)吧,這個(gè)模型由一個(gè)網(wǎng)絡(luò)層中的網(wǎng)絡(luò)、一個(gè)中等大小的過(guò)濾卷積、一個(gè)大型的過(guò)濾卷積、一個(gè)操作池(pooling operation)組成。網(wǎng)絡(luò)卷積層中的網(wǎng)絡(luò)能夠提取輸入體積中的每一個(gè)細(xì)節(jié)中的信息,同時(shí) 5x5 的濾波器也能夠覆蓋大部分接受層的的輸入,進(jìn)而能提起其中的信息。你也可以進(jìn)行一個(gè)池操作,以減少空間大小,降低過(guò)度擬合。在這些層之上,你在每一個(gè)卷積層后都有一個(gè)ReLU,這能改進(jìn)網(wǎng)絡(luò)的非線性特征?;旧?,網(wǎng)絡(luò)在執(zhí)行這些基本的功能時(shí),還能同時(shí)考慮計(jì)算的能力。這篇論文還提供了更高級(jí)別的推理,包括的主題有稀疏和緊密聯(lián)結(jié)(見(jiàn)論文第三和第四節(jié))。

要點(diǎn)

整個(gè)架構(gòu)中使用了9個(gè)Inception 模型,總共超過(guò)100層。這已經(jīng)很深了……沒(méi)有使用完全連接的層。他們使用一個(gè)平均池代替,從 7x7x1024 的體積降到了 1x1x1024,這節(jié)省了大量的參數(shù)。比AlexNet的參數(shù)少了12X在測(cè)試中,相同圖像的多個(gè)剪裁建立,然后填到網(wǎng)絡(luò)中,計(jì)算softmax probabilities的均值,然后我們可以獲得最后的解決方案。在感知模型中,使用了R-CNN中的概念。Inception有一些升級(jí)的版本(版本6和7),“少數(shù)高端的GPU”一周內(nèi)就能完成訓(xùn)練。

為什么重要?

GoogLeNet 是第一個(gè)引入了“CNN 各層不需要一直都按順序堆疊”這一概念的模型。用Inception模型,作者展示了一個(gè)具有創(chuàng)造性的層次機(jī)構(gòu),能帶來(lái)性能和計(jì)算效率的提升。這篇論文確實(shí)為接下來(lái)幾年可能會(huì)見(jiàn)到的令人驚嘆的架構(gòu)打下了基礎(chǔ)。

微軟 ResNet(2015年)

想象一個(gè)深度CNN架構(gòu),再深、再深、再深,估計(jì)都還沒(méi)有 ILSVRC 2015 冠軍,微軟的152層ResNet架構(gòu)深。除了在層數(shù)上面創(chuàng)紀(jì)錄,ResNet 的錯(cuò)誤率也低得驚人,達(dá)到了3.6%,人類都大約在5%~10%的水平。

為什么重要?

只有3.6%的誤差率,這應(yīng)該足以說(shuō)服你。ResNet模型是目前較好的CNN架構(gòu),而且是殘差學(xué)習(xí)理念的一大創(chuàng)新。從2012年起,錯(cuò)誤率逐年下降,我懷疑到ILSVRC2016,是否還會(huì)一直下降。我相信,我們現(xiàn)在堆放更多層將不會(huì)實(shí)現(xiàn)性能的大幅提升。我們必須要?jiǎng)?chuàng)造新的架構(gòu)。

區(qū)域 CNN:R-CNN(2013年)、Fast R-CNN(2015年)、Faster R-CNN(2015年)

一些人可能會(huì)認(rèn)為,R-CNN的出現(xiàn)比此前任何關(guān)于新的網(wǎng)絡(luò)架構(gòu)的論文都有影響力。第一篇關(guān)于R-CNN的論文被引用了超過(guò)1600次。Ross Girshick 和他在UC Berkeley 的團(tuán)隊(duì)在機(jī)器視覺(jué)上取得了最有影響力的進(jìn)步。正如他們的文章所寫(xiě), Fast R-CNN 和 Faster R-CNN能夠讓模型變得更快,更好地適應(yīng)現(xiàn)代的物體識(shí)別任務(wù)。?

R-CNN的目標(biāo)是解決物體識(shí)別的難題。在獲得特定的一張圖像后, 我們希望能夠繪制圖像中所有物體的邊緣。這一過(guò)程可以分為兩個(gè)組成部分,一個(gè)是區(qū)域建議,另一個(gè)是分類。

論文的作者強(qiáng)調(diào),任何分類不可知區(qū)域的建議方法都應(yīng)該適用。Selective Search專用于RCNN。Selective Search 的作用是聚合2000個(gè)不同的區(qū)域,這些區(qū)域有較高的可能性會(huì)包含一個(gè)物體。在我們?cè)O(shè)計(jì)出一系列的區(qū)域建議之后,這些建議被匯合到一個(gè)圖像大小的區(qū)域,能被填入到經(jīng)過(guò)訓(xùn)練的CNN(論文中的例子是AlexNet),能為每一個(gè)區(qū)域提取出一個(gè)對(duì)應(yīng)的特征。這個(gè)向量隨后被用于作為一個(gè)線性SVM的輸入,SVM經(jīng)過(guò)了每一種類型和輸出分類訓(xùn)練。向量還可以被填入到一個(gè)有邊界的回歸區(qū)域,獲得最精準(zhǔn)的一致性。

非極值壓抑后被用于壓制邊界區(qū)域,這些區(qū)域相互之間有很大的重復(fù)。

Fast R-CNN

原始模型得到了改進(jìn),主要有三個(gè)原因:訓(xùn)練需要多個(gè)步驟,這在計(jì)算上成本過(guò)高,而且速度很慢。Fast R-CNN通過(guò)從根本上在不同的建議中分析卷積層的計(jì)算,同時(shí)打亂生成區(qū)域建議的順利以及運(yùn)行CNN,能夠快速地解決問(wèn)題。

Faster R-CNN

Faster R-CNN的工作是克服R-CNN和 Fast R-CNN所展示出來(lái)的,在訓(xùn)練管道上的復(fù)雜性。作者 在最后一個(gè)卷積層上引入了一個(gè)區(qū)域建議網(wǎng)絡(luò)(RPN)。這一網(wǎng)絡(luò)能夠只看最后一層的特征就產(chǎn)出區(qū)域建議。從這一層面上來(lái)說(shuō),相同的R-CNN管道可用。

為什么重要?

能夠識(shí)別出一張圖像中的某一個(gè)物體是一方面,但是,能夠識(shí)別物體的較精確位置對(duì)于計(jì)算機(jī)知識(shí)來(lái)說(shuō)是一個(gè)巨大的飛躍。更快的R-CNN已經(jīng)成為今天標(biāo)準(zhǔn)的物體識(shí)別程序。

生成對(duì)抗網(wǎng)絡(luò)(2015年)

按照Yann LeCun的說(shuō)法,生成對(duì)抗網(wǎng)絡(luò)可能就是深度學(xué)習(xí)下一個(gè)大突破。假設(shè)有兩個(gè)模型,一個(gè)生成模型,一個(gè)判別模型。判別模型的任務(wù)是決定某幅圖像是真實(shí)的(來(lái)自數(shù)據(jù)庫(kù)),還是機(jī)器生成的,而生成模型的任務(wù)則是生成能夠騙過(guò)判別模型的圖像。這兩個(gè)模型彼此就形成了“對(duì)抗”,發(fā)展下去最終會(huì)達(dá)到一個(gè)平衡,生成器生成的圖像與真實(shí)的圖像沒(méi)有區(qū)別,判別器無(wú)法區(qū)分兩者。

左邊一欄是數(shù)據(jù)庫(kù)里的圖像,也即真實(shí)的圖像,右邊一欄是機(jī)器生成的圖像,雖然肉眼看上去基本一樣,但在CNN看起來(lái)卻十分不同。

為什么重要?

聽(tīng)上去很簡(jiǎn)單,然而這是只有在理解了“數(shù)據(jù)內(nèi)在表征”之后才能建立的模型,你能夠訓(xùn)練網(wǎng)絡(luò)理解真實(shí)圖像和機(jī)器生成的圖像之間的區(qū)別。因此,這個(gè)模型也可以被用于CNN中做特征提取。此外,你還能用生成對(duì)抗模型制作以假亂真的圖片。

生成圖像描述(2014年)

把CNN和RNN結(jié)合在一起會(huì)發(fā)生什么?Andrej Karpathy 和李飛飛寫(xiě)的這篇論文探討了結(jié)合CNN和雙向RNN生成不同圖像區(qū)域的自然語(yǔ)言描述問(wèn)題。簡(jiǎn)單說(shuō),這個(gè)模型能夠接收一張圖片,然后輸出

很神奇吧。傳統(tǒng)CNN,訓(xùn)練數(shù)據(jù)中每幅圖像都有單一的一個(gè)標(biāo)記。這篇論文描述的模型則是每幅圖像都帶有一句話(或圖說(shuō))。這種標(biāo)記被稱為弱標(biāo)記,使用這種訓(xùn)練數(shù)據(jù),一個(gè)深度神經(jīng)網(wǎng)絡(luò)“推斷句子中的部分與其描述的區(qū)域之間的潛在對(duì)齊(latent alignment)”,另一個(gè)神經(jīng)網(wǎng)絡(luò)將圖像作為輸入,生成文本的描述。

為什么重要?

使用看似不相關(guān)的RNN和CNN模型創(chuàng)造了一個(gè)十分有用的應(yīng)用,將計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理結(jié)合在一起。這篇論文為如何建模處理跨領(lǐng)域任務(wù)提供了全新的思路。

空間轉(zhuǎn)換器網(wǎng)絡(luò)(2015年)

最后,讓我們來(lái)看該領(lǐng)域最近的一篇論文。本文是谷歌DeepMind的一個(gè)團(tuán)隊(duì)在一年前寫(xiě)的。這篇論文的主要貢獻(xiàn)是介紹了空間變換器(Spatial Transformer)模塊?;舅悸肥牵@個(gè)模塊會(huì)轉(zhuǎn)變輸入圖像,使隨后的層可以更輕松地進(jìn)行分類。作者試圖在圖像到達(dá)特定層前改變圖像,而不是更改主CNN架構(gòu)本身。該模塊希望糾正兩件事:姿勢(shì)標(biāo)準(zhǔn)化(場(chǎng)景中物體傾斜或縮放)和空間注意力(在密集的圖像中將注意力集中到正確的物體)。對(duì)于傳統(tǒng)的CNN,如果你想使你的模型對(duì)于不同規(guī)格和旋轉(zhuǎn)的圖像都保持不變,那你需要大量的訓(xùn)練樣本來(lái)使模型學(xué)習(xí)。讓我們來(lái)看看這個(gè)模塊是如何幫助解決這一問(wèn)題。

?

傳統(tǒng)CNN模型中,處理空間不變性的是maxpooling層。其原因是,一旦我們知道某個(gè)特定特性還是起始輸入量(有高激活值),它的確切位置就沒(méi)有它對(duì)其他特性的相對(duì)位置重要,其他功能一樣重要。這個(gè)新的空間變換器是動(dòng)態(tài)的,它會(huì)對(duì)每個(gè)輸入圖像產(chǎn)生不同的行為(不同的扭曲/變形)。這不僅僅是像傳統(tǒng) maxpool 那樣簡(jiǎn)單和預(yù)定義。讓我們來(lái)看看這個(gè)模塊是如何工作的。該模塊包括:

一個(gè)本地化網(wǎng)絡(luò),會(huì)吸收輸入量,并輸出應(yīng)施加的空間變換的參數(shù)。參數(shù)可以是6維仿射變換。?

采樣網(wǎng)格,這是由卷曲規(guī)則網(wǎng)格和定位網(wǎng)絡(luò)中創(chuàng)建的仿射變換(theta)共同產(chǎn)生的。?

一個(gè)采樣器,其目的是執(zhí)行輸入功能圖的翹曲。?

該模塊可以放入CNN的任何地方中,可以幫助網(wǎng)絡(luò)學(xué)習(xí)如何以在訓(xùn)練過(guò)程中較大限度地減少成本函數(shù)的方式來(lái)變換特征圖。

為什么重要?

CNN的改進(jìn)不一定要到通過(guò)網(wǎng)絡(luò)架構(gòu)的大改變來(lái)實(shí)現(xiàn)。我們不需要?jiǎng)?chuàng)建下一個(gè)ResNet或者 Inception 模型。本文實(shí)現(xiàn)了對(duì)輸入圖像進(jìn)行仿射變換的簡(jiǎn)單的想法,以使模型對(duì)平移,縮放和旋轉(zhuǎn)保持不變。

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4409.html

相關(guān)文章

  • 熬過(guò)深宮幾載,深度學(xué)習(xí)上位這五年

    摘要:年,發(fā)表,至今,深度學(xué)習(xí)已經(jīng)發(fā)展了十幾年了。年的結(jié)構(gòu)圖圖片來(lái)自于論文基于圖像識(shí)別的深度卷積神經(jīng)網(wǎng)絡(luò)這篇文章被稱為深度學(xué)習(xí)的開(kāi)山之作。還首次提出了使用降層和數(shù)據(jù)增強(qiáng)來(lái)解決過(guò)度匹配的問(wèn)題,對(duì)于誤差率的降低至關(guān)重要。 1998年,Yann LeCun 發(fā)表Gradient-Based Learning Applied to Document Recognition,至今,深度學(xué)習(xí)已經(jīng)發(fā)展了十幾年了...

    msup 評(píng)論0 收藏0
  • 一個(gè)時(shí)代的終結(jié):ImageNet 競(jìng)賽 2017 是最后一屆

    摘要:年月日,將標(biāo)志著一個(gè)時(shí)代的終結(jié)。數(shù)據(jù)集最初由斯坦福大學(xué)李飛飛等人在的一篇論文中推出,并被用于替代數(shù)據(jù)集后者在數(shù)據(jù)規(guī)模和多樣性上都不如和數(shù)據(jù)集在標(biāo)準(zhǔn)化上不如。從年一個(gè)專注于圖像分類的數(shù)據(jù)集,也是李飛飛開(kāi)創(chuàng)的。 2017 年 7 月 26 日,將標(biāo)志著一個(gè)時(shí)代的終結(jié)。那一天,與計(jì)算機(jī)視覺(jué)頂會(huì) CVPR 2017 同期舉行的 Workshop——超越 ILSVRC(Beyond ImageNet ...

    OnlyMyRailgun 評(píng)論0 收藏0
  • 極驗(yàn)驗(yàn)證:淺析深度學(xué)習(xí)模型與應(yīng)用

    摘要:一時(shí)之間,深度學(xué)習(xí)備受追捧。百度等等公司紛紛開(kāi)始大量的投入深度學(xué)習(xí)的應(yīng)用研究。極驗(yàn)驗(yàn)證就是將深度學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)安全防御,通過(guò)深度學(xué)習(xí)建模學(xué)習(xí)人類與機(jī)器的行為特征,來(lái)區(qū)別人與機(jī)器,防止惡意程序?qū)W(wǎng)站進(jìn)行垃圾注冊(cè),撞庫(kù)登錄等。 2006年Geoffery ?Hinton提出了深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò)),并在2012年的ImageNet競(jìng)賽中有非凡的表現(xiàn),以15.3%的Top-5錯(cuò)誤率奪魁,比利用傳...

    王巖威 評(píng)論0 收藏0
  • 淺析 Hinton 最近提出的 Capsule 計(jì)劃

    摘要:近幾年以卷積神經(jīng)網(wǎng)絡(luò)有什么問(wèn)題為主題做了多場(chǎng)報(bào)道,提出了他的計(jì)劃。最初提出就成為了人工智能火熱的研究方向。展現(xiàn)了和玻爾茲曼分布間驚人的聯(lián)系其在論文中多次稱,其背后的內(nèi)涵引人遐想。 Hinton 以深度學(xué)習(xí)之父 和 神經(jīng)網(wǎng)絡(luò)先驅(qū) 聞名于世,其對(duì)深度學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)的諸多核心算法和結(jié)構(gòu)(包括深度學(xué)習(xí)這個(gè)名稱本身,反向傳播算法,受限玻爾茲曼機(jī),深度置信網(wǎng)絡(luò),對(duì)比散度算法,ReLU激活單元,Dropo...

    Donald 評(píng)論0 收藏0
  • 深度學(xué)習(xí):推動(dòng)NLP領(lǐng)域發(fā)展的新引擎

    摘要:深度學(xué)習(xí)推動(dòng)領(lǐng)域發(fā)展的新引擎圖擁有記憶能力最早是提出用來(lái)解決圖像識(shí)別的問(wèn)題的一種深度神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)推動(dòng)領(lǐng)域發(fā)展的新引擎圖深度神經(jīng)網(wǎng)絡(luò)最近相關(guān)的改進(jìn)模型也被用于領(lǐng)域。 從2015年ACL會(huì)議的論文可以看出,目前NLP最流行的方法還是機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí),所以本文會(huì)從深度神經(jīng)網(wǎng)絡(luò)的角度分析目前NLP研究的熱點(diǎn)和未來(lái)的發(fā)展方向。我們主要關(guān)注Word Embedding、RNN/LSTM/CN...

    shiyang6017 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<