摘要:目前目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類(lèi)的目標(biāo)檢測(cè)算法的目標(biāo)檢測(cè)算法。原來(lái)多數(shù)的目標(biāo)檢測(cè)算法都是只采用深層特征做預(yù)測(cè),低層的特征語(yǔ)義信息比較少,但是目標(biāo)位置準(zhǔn)確高層的特征語(yǔ)義信息比較豐富,但是目標(biāo)位置比較粗略。
目前目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類(lèi):two stage的目標(biāo)檢測(cè)算法;one stage的目標(biāo)檢測(cè)算法。前者是先由算法生成一系列作為樣本的候選框,再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本分類(lèi);后者則不用產(chǎn)生候選框,直接將目標(biāo)邊框定位的問(wèn)題轉(zhuǎn)化為回歸問(wèn)題處理。正是由于兩種方法的差異,在性能上也有不同,前者在檢測(cè)準(zhǔn)確率和定位精度上占優(yōu),后者在算法速度上占優(yōu)。
目標(biāo)檢測(cè)算法脈絡(luò)
1. two stage的方法
在早期深度學(xué)習(xí)技術(shù)發(fā)展進(jìn)程中,主要都是圍繞分類(lèi)問(wèn)題展開(kāi)研究,這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)特有的結(jié)構(gòu)輸出將概率統(tǒng)計(jì)和分類(lèi)問(wèn)題結(jié)合,提供一種直觀易行的思路。國(guó)內(nèi)外研究人員雖然也在致力于將其他如目標(biāo)檢測(cè)領(lǐng)域和深度學(xué)習(xí)結(jié)合,但都沒(méi)有取得成效,這種情況直到R-CNN算法出現(xiàn)才得以解決。
1.1 R-CNN
2014年加州大學(xué)伯克利分校的Ross B. Girshick提出R-CNN算法,其在效果上超越同期的Yann Lecun提出的端到端方法OverFeat算法,其算法結(jié)構(gòu)也成為后續(xù)two stage的經(jīng)典結(jié)構(gòu)。
R-CNN算法利用選擇性搜索(Selective Search)算法評(píng)測(cè)相鄰圖像子塊的特征相似度,通過(guò)對(duì)合并后的相似圖像區(qū)域打分,選擇出感興趣區(qū)域的候選框作為樣本輸入到卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)部,由網(wǎng)絡(luò)學(xué)習(xí)候選框和標(biāo)定框組成的正負(fù)樣本特征,形成對(duì)應(yīng)的特征向量,再由支持向量機(jī)設(shè)計(jì)分類(lèi)器對(duì)特征向量分類(lèi),最后對(duì)候選框以及標(biāo)定框完成邊框回歸操作達(dá)到目標(biāo)檢測(cè)的定位目的。
雖然R-CNN算法相較于傳統(tǒng)目標(biāo)檢測(cè)算法取得了50%的性能提升,但其也有缺陷存在:訓(xùn)練網(wǎng)絡(luò)的正負(fù)樣本候選區(qū)域由傳統(tǒng)算法生成,使得算法速度受到限制;卷積神經(jīng)網(wǎng)絡(luò)需要分別對(duì)每一個(gè)生成的候選區(qū)域進(jìn)行一次特征提取,實(shí)際存在大量的重復(fù)運(yùn)算,制約了算法性能。
圖1.1 R-CNN
1.2 SPP-Net
圖1.2 spatial pyramid pooling layer
針對(duì)卷積神經(jīng)網(wǎng)絡(luò)重復(fù)運(yùn)算問(wèn)題,2015年微軟研究院的何愷明等提出一種SPP-Net算法,通過(guò)在卷積層和全連接層之間加入空間金字塔池化結(jié)構(gòu)(Spatial Pyramid Pooling)代替R-CNN算法在輸入卷積神經(jīng)網(wǎng)絡(luò)前對(duì)各個(gè)候選區(qū)域進(jìn)行剪裁、縮放操作使其圖像子塊尺寸一致的做法。
利用空間金字塔池化結(jié)構(gòu)有效避免了R-CNN算法對(duì)圖像區(qū)域剪裁、縮放操作導(dǎo)致的圖像物體剪裁不全以及形狀扭曲等問(wèn)題,更重要的是解決了卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像重復(fù)特征提取的問(wèn)題,大大提高了產(chǎn)生候選框的速度,且節(jié)省了計(jì)算成本。但是和R-CNN算法一樣訓(xùn)練數(shù)據(jù)的圖像尺寸大小不一致,導(dǎo)致候選框的ROI感受野大,不能利用BP高效更新權(quán)重。
1.3 Fast R-CNN
針對(duì)SPP-Net算法的問(wèn)題,2015年微軟研究院的Ross B. Girshick又提出一種改進(jìn)的Fast R-CNN算法,借鑒SPP-Net算法結(jié)構(gòu),設(shè)計(jì)一種ROI pooling的池化層結(jié)構(gòu),有效解決R-CNN算法必須將圖像區(qū)域剪裁、縮放到相同尺寸大小的操作。
提出多任務(wù)損失函數(shù)思想,將分類(lèi)損失和邊框回歸損失結(jié)合統(tǒng)一訓(xùn)練學(xué)習(xí),并輸出對(duì)應(yīng)分類(lèi)和邊框坐標(biāo),不再需要額外的硬盤(pán)空間來(lái)存儲(chǔ)中間層的特征,梯度能夠通過(guò)RoI Pooling層直接傳播。但是其仍然沒(méi)有擺脫選擇性搜索算法生成正負(fù)樣本候選框的問(wèn)題。
圖1.3 Fast R-CNN
1.4 Faster R-CNN
為了解決Fast R-CNN算法缺陷,使得算法實(shí)現(xiàn)two stage的全網(wǎng)絡(luò)結(jié)構(gòu),2015年微軟研究院的任少慶、何愷明以及Ross B Girshick等人又提出了Faster R-CNN算法。設(shè)計(jì)輔助生成樣本的RPN(Region Proposal Networks)網(wǎng)絡(luò),將算法結(jié)構(gòu)分為兩個(gè)部分,先由RPN網(wǎng)絡(luò)判斷候選框是否為目標(biāo),再經(jīng)分類(lèi)定位的多任務(wù)損失判斷目標(biāo)類(lèi)型,整個(gè)網(wǎng)絡(luò)流程都能共享卷積神經(jīng)網(wǎng)絡(luò)提取的的特征信息,節(jié)約計(jì)算成本,且解決Fast R-CNN算法生成正負(fù)樣本候選框速度慢的問(wèn)題,同時(shí)避免候選框提取過(guò)多導(dǎo)致算法準(zhǔn)確率下降。
但是由于RPN網(wǎng)絡(luò)可在固定尺寸的卷積特征圖中生成多尺寸的候選框,導(dǎo)致出現(xiàn)可變目標(biāo)尺寸和固定感受野不一致的現(xiàn)象。
圖1.4 Faster R-CNN
1.5 MR-CNN
2015年巴黎科技大學(xué)提出MR-CNN算法,結(jié)合樣本區(qū)域本身的特征,利用樣本區(qū)域周?chē)蓸拥奶卣骱蛨D像分割的特征來(lái)提高識(shí)別率,可將檢測(cè)問(wèn)題分解為分類(lèi)和定位問(wèn)題。
圖1.5 MR-CNN
分類(lèi)問(wèn)題由Multi-Region CNN Model和Semantic Segmentation-Aware CNN Model組成。前者的候選框由Selective Search得到,對(duì)于每一個(gè)樣本區(qū)域,取10個(gè)區(qū)域分別提取特征后拼接,這樣可以強(qiáng)制網(wǎng)絡(luò)捕捉物體的不同方面,同時(shí)可以增強(qiáng)網(wǎng)絡(luò)對(duì)于定位不準(zhǔn)確的敏感性,其中adaptive max pooling即ROI max pooling;后者使用FCN進(jìn)行目標(biāo)分割,將最后一層的feature map和前者產(chǎn)生的feature map拼接,作為最后的feature map。
為了較精確定位,采用三種樣本邊框修正方法,分別為Bbox regression、Iterative localization以及Bounding box voting。Bbox regression:在Multi-Region CNN Model中整幅圖經(jīng)過(guò)網(wǎng)路的最后一層卷積層后,接一個(gè)Bbox regression layer,與RPN不同,此處的regression layer是兩層FC以及一層prediction layer,為了防止Selective Search得到的框過(guò)于貼近物體而導(dǎo)致無(wú)法很好的框定物體,將候選框擴(kuò)大為原來(lái)的1.3倍再做。
Iterative localization:初始的框是Selective Search得到的框,然后用已有的分類(lèi)模型對(duì)框做出估值,低于給定閾值的框被篩掉,剩下的框用Bbox regression的方法調(diào)整大小,并迭代篩選。Bounding box voting:首先對(duì)經(jīng)過(guò)Iterative localization處理后的框應(yīng)用NMS, IOU = 0.3,得到檢測(cè)結(jié)果,然后對(duì)于每一個(gè)框,用每一個(gè)和其同一類(lèi)的而且IOU >0.5的框加權(quán)坐標(biāo),得到最后的目標(biāo)樣本框。
1.6 HyperNet
2016年清華大學(xué)提出HyperNet算法,其利用網(wǎng)絡(luò)多個(gè)層級(jí)提取的特征,且從較前層獲取的精細(xì)特征可以減少對(duì)于小物體檢測(cè)的缺陷。將提取到的不同層級(jí)feature map通過(guò)較大池化降維或逆卷積擴(kuò)增操作使得所有feature map尺寸一致,并利用LRN正則化堆疊,形成Hyper
Feature maps,其具有多層次抽象、合適分辨率以及計(jì)算時(shí)效性的優(yōu)點(diǎn)。接著通過(guò)region proposal generation module結(jié)構(gòu)進(jìn)行預(yù)測(cè)和定位,僅保留置信度較高的N個(gè)樣本框進(jìn)行判斷。
圖1.6 HyperNet
1.7 CRAFT
圖1.7 CRAFT
R-CNN系列算法的第一階段是生成目標(biāo)proposals,第二階段是對(duì)目標(biāo)proposals進(jìn)行分類(lèi),2016年中科院自動(dòng)化所提出的CRAFT算法分別對(duì)Faster R-CNN中的這兩個(gè)階段進(jìn)行了一定的改進(jìn)。
對(duì)于生成目標(biāo)proposals階段,在RPN的后面加了一個(gè)二值的Fast R-CNN分類(lèi)器來(lái)對(duì)RPN生成的proposals進(jìn)行進(jìn)一步的篩選,留下一些高質(zhì)量的proposals;對(duì)于第二階段的目標(biāo)proposals分類(lèi),在原來(lái)的分類(lèi)器后又級(jí)聯(lián)了N個(gè)類(lèi)別(不包含背景類(lèi))的二值分類(lèi)器以進(jìn)行更精細(xì)的目標(biāo)檢測(cè)。
1.8 R-FCN
圖1.8 R-FCN
隨著全卷積網(wǎng)絡(luò)的出現(xiàn),2016年微軟研究院的Jifeng Dai等提出R-FCN算法。相較于Faster R-CNN算法只能計(jì)算ROI pooling層之前的卷積網(wǎng)絡(luò)特征參數(shù),R-FCN算法提出一種位置敏感分布的卷積網(wǎng)絡(luò)代替ROI pooling層之后的全連接網(wǎng)絡(luò),解決了Faster R-CNN由于ROI
Pooling層后面的結(jié)構(gòu)需要對(duì)每一個(gè)樣本區(qū)域跑一次而耗時(shí)比較大的問(wèn)題,使得特征共享在整個(gè)網(wǎng)絡(luò)內(nèi)得以實(shí)現(xiàn),解決物體分類(lèi)要求有平移不變性和物體檢測(cè)要求有平移變化的矛盾,但是沒(méi)有考慮到region proposal的全局信息和語(yǔ)義信息。
1.9 MS-CNN
針對(duì)Faster R-CNN算法的遺留問(wèn)題,2016年加州大學(xué)圣地亞哥分校的Z Cai提出了MS-CNN算法,通過(guò)利用Faster R-CNN算法結(jié)構(gòu)的多個(gè)不同層級(jí)輸出的特征結(jié)果來(lái)檢測(cè)目標(biāo),將不同層級(jí)的檢測(cè)器互補(bǔ)形成多尺度的強(qiáng)檢測(cè)器,應(yīng)用淺層特征檢測(cè)小尺寸目標(biāo),應(yīng)用深層特征檢測(cè)大尺寸目標(biāo)。并且利用去卷積層代替圖像上采樣來(lái)增加圖像分辨率,減少內(nèi)存占用,提高運(yùn)行速度。
圖1.9 MS-CNN的特征網(wǎng)絡(luò)
1.10 PVANet
針對(duì)的就是算法的運(yùn)算速度提升問(wèn)題,2016年底Intel圖像技術(shù)團(tuán)隊(duì)提出了一個(gè)輕量級(jí)的網(wǎng)絡(luò),取得了state-of-the-art的效果。PVANet主要分為特征抽取網(wǎng)絡(luò)和檢測(cè)網(wǎng)絡(luò),基于多層少通道的基本原則,在網(wǎng)絡(luò)淺層采用C.ReLU結(jié)構(gòu),在網(wǎng)絡(luò)深層采用Inception模塊,其中前者是將K×K卷積結(jié)構(gòu)表示1×1 - K×K - 1×1的卷積層的堆疊,后者設(shè)計(jì)原則是由于為了檢測(cè)圖像中的大目標(biāo),需要足夠大的感受野,可通過(guò)堆疊3×3的卷積核實(shí)現(xiàn),但是為了捕獲小目標(biāo),則需要小一點(diǎn)的感受野,可通過(guò)1×1的卷積核實(shí)現(xiàn),且可以避免大卷積核造成的參數(shù)冗余問(wèn)題。
PVANet應(yīng)用多尺度特征級(jí)聯(lián)較大化目標(biāo)檢測(cè)任務(wù)的多尺度性質(zhì),權(quán)重衰減策略采用一定迭代次數(shù)內(nèi)loss不再下降,則將學(xué)習(xí)速率降低常數(shù)倍的方式,通過(guò)batch normalization和residual連接實(shí)現(xiàn)高效的訓(xùn)練。
圖1.10 PVANet
1.11 FPN
2017年Facebook的Tsung-Yi Lin等提出了FPN算法,利用不同層的特征圖進(jìn)行不同尺寸的目標(biāo)預(yù)測(cè)。原來(lái)多數(shù)的目標(biāo)檢測(cè)算法都是只采用深層特征做預(yù)測(cè),低層的特征語(yǔ)義信息比較少,但是目標(biāo)位置準(zhǔn)確;高層的特征語(yǔ)義信息比較豐富,但是目標(biāo)位置比較粗略。
另外雖然也有些算法采用多尺度特征融合的方式,但是一般是采用融合后的特征做預(yù)測(cè),而FPN算法不一樣的地方在于預(yù)測(cè)是在不同特征層獨(dú)立進(jìn)行的,利用深層特征通過(guò)上采樣和低層特征做融合。
FPN算法主網(wǎng)絡(luò)是ResNet,結(jié)構(gòu)主要是一個(gè)自底向上的線(xiàn)路橫向連接一個(gè)自頂向下的線(xiàn)路。自底向上其實(shí)就是網(wǎng)絡(luò)的前向過(guò)程,在前向過(guò)程中,feature map的大小在經(jīng)過(guò)某些層后會(huì)改變,而在經(jīng)過(guò)其他一些層的時(shí)候不會(huì)改變,F(xiàn)PN算法將不改變feature map大小的層歸為一個(gè)stage,因此每次抽取的特征都是每個(gè)stage的最后一個(gè)層輸出,這樣就能構(gòu)成特征金字塔。
自頂向下的過(guò)程采用上采樣進(jìn)行,而橫向連接則是將上采樣的結(jié)果和自底向上生成的相同大小的feature map并一一對(duì)應(yīng)進(jìn)行融合,在融合之后還會(huì)再采用3×3的卷積核對(duì)每個(gè)融合結(jié)果進(jìn)行卷積,目的是消除上采樣的混疊效應(yīng)。
圖1.11 FPN
1.12 Mask R-CNN
為了解決R-CNN算法為代表的two stage的方法問(wèn)題,2017年Facebook的何愷明等提出了Mask R-CNN算法,取得了很好的識(shí)別效果。
Mask R-CNN算法將ROI_Pooling層替換成了ROI_Align,并且在邊框識(shí)別的基礎(chǔ)上添加分支FCN層(mask層),用于語(yǔ)義Mask識(shí)別,通過(guò)RPN網(wǎng)絡(luò)生成目標(biāo)候選框,再對(duì)每個(gè)目標(biāo)候選框分類(lèi)判斷和邊框回歸,同時(shí)利用全卷積網(wǎng)絡(luò)對(duì)每個(gè)目標(biāo)候選框預(yù)測(cè)分割掩膜。
加入的掩膜預(yù)測(cè)結(jié)構(gòu)解決了特征圖像和原始圖像上的ROI不對(duì)準(zhǔn)問(wèn)題,避免對(duì)ROI邊界做任何量化,而用雙線(xiàn)性插值到對(duì)準(zhǔn)特征,再用池化操作融合。掩膜編碼了輸入圖像的空間布局,用全卷積網(wǎng)絡(luò)預(yù)測(cè)每個(gè)目標(biāo)候選框的掩膜能完整的保留空間結(jié)構(gòu)信息,實(shí)現(xiàn)目標(biāo)像素級(jí)分割定位。
圖1.12 Mask R-CNN
1.13 A-Fast-RCNN
A-Fast-RCNN算法是2017年卡內(nèi)基梅隆大學(xué)提出的,其將對(duì)抗學(xué)習(xí)引入到目標(biāo)檢測(cè)問(wèn)題中,通過(guò)對(duì)抗網(wǎng)絡(luò)生成一下遮擋和變形的訓(xùn)練樣本來(lái)訓(xùn)練檢測(cè)網(wǎng)絡(luò),從而使得網(wǎng)絡(luò)能夠?qū)φ趽鹾妥冃螁?wèn)題更加的魯棒。使用對(duì)抗網(wǎng)絡(luò)生成有遮擋和有形變的兩種特征,兩種網(wǎng)絡(luò)分別為ASDN和ASTN。
ASDN利用Fast R-CNN中ROI池化層之后的每個(gè)目標(biāo)proposal卷積特征作為對(duì)抗網(wǎng)絡(luò)的輸入,給定一個(gè)目標(biāo)的特征,ASDN嘗試生成特征某些部分被dropout的掩碼,導(dǎo)致檢測(cè)器無(wú)法識(shí)別該物體。
在前向傳播過(guò)程中,首先使用ASDN在ROI池化層之后生成特征掩碼,然后使用重要性采樣法生成二值掩碼,使用該掩碼將特征對(duì)應(yīng)部位值清零,修改后的特征繼續(xù)前向傳播計(jì)算損失,這個(gè)過(guò)程生成了困難的特征,用于訓(xùn)練檢測(cè)器。
ASTN主要關(guān)注特征旋轉(zhuǎn),定位網(wǎng)絡(luò)包含三層全連接層,前兩層是ImageNet預(yù)訓(xùn)練的FC6和FC7,訓(xùn)練過(guò)程與ASDN類(lèi)似,ASTN對(duì)特征進(jìn)行形變,將特征圖劃分為4個(gè)block,每個(gè)block估計(jì)四個(gè)方向的旋轉(zhuǎn),增加了任務(wù)的復(fù)雜度。兩種對(duì)抗網(wǎng)絡(luò)可以相結(jié)合,使得檢測(cè)器更魯棒,ROI池化層提取的特征首先傳入ASDN丟棄一些激活,之后使用ASTN對(duì)特征進(jìn)行形變。
圖1.13 A-Fast-RCNN
1.14 CoupleNet
針對(duì)R-FCN算法沒(méi)有考慮到region proposal的全局信息和語(yǔ)義信息的問(wèn)題,2017年中科院自動(dòng)化所提出CoupleNet算法,其在原來(lái)R-FCN的基礎(chǔ)上引入了proposal的全局和語(yǔ)義信息,通過(guò)結(jié)合局部、全局以及語(yǔ)義的信息,提高了檢測(cè)的精度。
圖1.14 CoupleNet
CoupleNet結(jié)構(gòu)利用三支并行網(wǎng)絡(luò)實(shí)現(xiàn)檢測(cè),上面的支路網(wǎng)絡(luò)使用原本的R-FCN結(jié)構(gòu)的位置敏感分布圖提取目標(biāo)的局部信息;中間的支路網(wǎng)絡(luò)用于提取目標(biāo)的全局信息,對(duì)于一個(gè)region proposal,依次通過(guò)K×K的ROI Pooling,K×K的conv以及1×1的conv;下面的支路網(wǎng)絡(luò)用于提取目標(biāo)的語(yǔ)義信息,對(duì)于一個(gè)region proposal,首先選擇以這個(gè)proposal為中心,面積是原來(lái)2倍的proposal,同樣依次通過(guò)K×K的ROI Pooling,K×K的conv以及1×1的conv。最后先各自通過(guò)1×1的conv調(diào)整激活值的尺寸,然后把Local FCN和Global FCN結(jié)果對(duì)應(yīng)位置元素相加,再通過(guò)一個(gè)softmax實(shí)現(xiàn)分類(lèi)。
1.15 MegDet
基于CNN的物體檢測(cè)研究一直在不斷進(jìn)步,從R-CNN到Fast/Faster R-CNN,再M(fèi)ask R-CNN,主要的改進(jìn)點(diǎn)都在于新的網(wǎng)絡(luò)架構(gòu)、新的范式、或者新的損失函數(shù)設(shè)計(jì),然而mini-batch大小,這個(gè)訓(xùn)練中的關(guān)鍵因素并沒(méi)有得到完善的研究。
由于輸入圖片尺寸的增長(zhǎng),圖像檢測(cè)所需顯存量也會(huì)同比例增長(zhǎng),這也使得已有的深度學(xué)習(xí)框架無(wú)法訓(xùn)練大mini-batch的圖像檢測(cè)模型,而小mini-batch的物體檢測(cè)算法又常常會(huì)引入不穩(wěn)定的梯度、BN層統(tǒng)計(jì)不準(zhǔn)確、正負(fù)樣本比例失調(diào)以及超長(zhǎng)訓(xùn)練時(shí)間的問(wèn)題。因此,2017年12月Face++提出一種大mini-batch的目標(biāo)檢測(cè)算法MegDet。
圖1.15 多GPU的Batch Normalization
MegDet算法可以使用遠(yuǎn)大于以往的mini-batch大小訓(xùn)練網(wǎng)絡(luò)(比如從16增大到256),這樣同時(shí)也可以高效地利用多塊GPU聯(lián)合訓(xùn)練(在論文的實(shí)驗(yàn)中最多使用了128塊GPU),大大縮短訓(xùn)練時(shí)間。
同時(shí),解決了BN統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題,也提出了一種學(xué)習(xí)率選擇策略以及跨GPU的Batch Normalization方法,兩者共同使用就得以大幅度減少大mini-batch物體檢測(cè)器的訓(xùn)練時(shí)間(比如從33小時(shí)減少到僅僅4個(gè)小時(shí)),同時(shí)還可以達(dá)到更高的準(zhǔn)確率。
1.16 Light-Head R-CNN
2017年12月Face++提出了一種為了使two stage的檢測(cè)算法Light-Head R-CNN,主要探討了R-CNN如何在物體檢測(cè)中平衡較精確度和速度。Light-Head R-CNN提出了一種更好的two-stage detector設(shè)計(jì)結(jié)構(gòu),使用一個(gè)大內(nèi)核可分卷積和少量通道生成稀疏的特征圖。
該設(shè)計(jì)的計(jì)算量使隨后的ROI子網(wǎng)絡(luò)計(jì)算量大幅降低,檢測(cè)系統(tǒng)所需內(nèi)存減少。將一個(gè)廉價(jià)的全連接層附加到池化層上,充分利用分類(lèi)和回歸的特征表示。因其輕量級(jí)頭部結(jié)構(gòu),該檢測(cè)器能夠?qū)崿F(xiàn)速度和準(zhǔn)確率之間的最優(yōu)權(quán)衡,不管使用的是大主干網(wǎng)絡(luò)還是小主干網(wǎng)絡(luò)。
基于ResNet101網(wǎng)絡(luò)達(dá)到了新的state-of-the-art的結(jié)果40.6,超過(guò)了Mask R-CNN和RetinaNet。同時(shí)如果是用一個(gè)更小的網(wǎng)絡(luò),比如類(lèi)似Xception的小模型,達(dá)到了100+FPS,30.7mmap,效率上超過(guò)了SSD和YOLO。
圖1.16 Light-Head R-CNN
2. one stage的方法
以R-CNN算法為代表的two stage的方法由于RPN結(jié)構(gòu)的存在,雖然檢測(cè)精度越來(lái)越高,但是其速度卻遇到瓶頸,比較難于滿(mǎn)足部分場(chǎng)景實(shí)時(shí)性的需求。因此出現(xiàn)一種基于回歸方法的one stage的目標(biāo)檢測(cè)算法,不同于two stage的方法的分步訓(xùn)練共享檢測(cè)結(jié)果,one stage的方法能實(shí)現(xiàn)完整單次訓(xùn)練共享特征,且在保證一定準(zhǔn)確率的前提下,速度得到極大提升。
2.1 OverFeat
2013年Yann Lecun在紐約大學(xué)的團(tuán)隊(duì)提出了著名的OverFeat算法,其利用滑動(dòng)窗口和規(guī)則塊生成候選框,再利用多尺度滑動(dòng)窗口增加檢測(cè)結(jié)果,解決圖像目標(biāo)形狀復(fù)雜、尺寸不一問(wèn)題,最后利用卷積神經(jīng)網(wǎng)絡(luò)和回歸模型分類(lèi)、定位目標(biāo)。該算法首次將分類(lèi)、定位以及檢測(cè)三個(gè)計(jì)算機(jī)視覺(jué)任務(wù)放在一起解決,獲得同年ILSVRC 2013任務(wù)3(分類(lèi)+定位)的冠軍,但其很快就被同期的R-CNN算法取代。
圖2.1 用于檢測(cè)的高效卷積
2.2 YOLO
2015年華盛頓大學(xué)的Joseph Redmon等提出的YOLO算法繼承了OverFeat算法這種基于回歸的one stage方法,速度能達(dá)到每秒45幀,由于其速度優(yōu)勢(shì)迅速成為端到端方法的領(lǐng)先者。YOLO算法是基于圖像的全局信息進(jìn)行預(yù)測(cè)的,整體結(jié)構(gòu)簡(jiǎn)單,通過(guò)將輸入圖像重整到448×448像素固定尺寸大小,并劃分圖像為7×7網(wǎng)格區(qū)域,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取特征訓(xùn)練,直接預(yù)測(cè)每個(gè)網(wǎng)格內(nèi)的邊框坐標(biāo)和每個(gè)類(lèi)別置信度,訓(xùn)練時(shí)采用P-Relu激活函數(shù)。但是存在定位不準(zhǔn)以及召回率不如基于區(qū)域提名方法的問(wèn)題,且對(duì)距離很近的物體和很小的物體檢測(cè)效果不好,泛化能力相對(duì)較弱。
圖2.2 YOLO
2.3 YOLOv2 & YOLO9000
經(jīng)過(guò)Joseph Redmon等的改進(jìn),YOLOv2和YOLO9000算法在2017年CVPR上被提出,并獲得較佳論文提名,重點(diǎn)解決召回率和定位精度方面的誤差。采用Darknet-19作為特征提取網(wǎng)絡(luò),增加了批量歸一化(Batch Normalization)的預(yù)處理,并使用224×224和448×448兩階段訓(xùn)練ImageNet預(yù)訓(xùn)練模型后fine-tuning。
相比于原來(lái)的YOLO是利用全連接層直接預(yù)測(cè)bounding box的坐標(biāo),YOLOv2借鑒了Faster R-CNN的思想,引入anchor機(jī)制,利用K-Means聚類(lèi)的方式在訓(xùn)練集中聚類(lèi)計(jì)算出更好的anchor模板,在卷積層使用anchorboxes操作,增加候選框的預(yù)測(cè),同時(shí)采用較強(qiáng)約束的定位方法,大大提高算法召回率。結(jié)合圖像細(xì)粒度特征,將淺層特征與深層特征相連,有助于對(duì)小尺寸目標(biāo)的檢測(cè)。
圖2.3 YOLOv2在VOC2007上的速度和精度
2.4 G-CNN
由于巨大的proposal數(shù)量使得后續(xù)檢測(cè)效率降低,2016年馬里蘭大學(xué)的M Najibi等提出一種起始于網(wǎng)格迭代的G-CNN算法。通過(guò)初始化對(duì)圖像劃分回歸后得到更加接近物體的候選框,再利用回歸框作為原始窗口進(jìn)行回歸調(diào)整,解決了以往的基于區(qū)域提名方法通過(guò)海量潛在候選框直接進(jìn)行目標(biāo)搜索,抑制負(fù)樣本的缺陷。
在訓(xùn)練階段,首先在圖像中獲取疊加的多尺度的規(guī)則網(wǎng)格(實(shí)際網(wǎng)格相互疊加),然后通過(guò)ground truth與每一個(gè)網(wǎng)格的IOU進(jìn)行每一個(gè)網(wǎng)格ground truth的分配,并完成訓(xùn)練過(guò)程,使得網(wǎng)格在回歸過(guò)程中漸漸接近ground truth。在檢測(cè)階段,對(duì)于每一個(gè)樣本框針對(duì)每一類(lèi)獲得置信分?jǐn)?shù),用最可能類(lèi)別的回歸器來(lái)更新樣本框的位置。
圖2.4 G-CNN
2.5 SSD
針對(duì)YOLO類(lèi)算法的定位精度問(wèn)題,2016年12月北卡大學(xué)教堂山分校的Wei Liu等提出SSD算法,將YOLO的回歸思想和Faster R-CNN的anchor box機(jī)制結(jié)合。通過(guò)在不同卷積層的特征圖上預(yù)測(cè)物體區(qū)域,輸出離散化的多尺度、多比例的default boxes坐標(biāo),同時(shí)利用小卷積核預(yù)測(cè)一系列候選框的邊框坐標(biāo)補(bǔ)償和每個(gè)類(lèi)別的置信度。
在整幅圖像上各個(gè)位置用多尺度區(qū)域的局部特征圖邊框回歸,保持YOLO算法快速特性的同時(shí),也保證了邊框定位效果和Faster R-CNN類(lèi)似。但因其利用多層次特征分類(lèi),導(dǎo)致其對(duì)于小目標(biāo)檢測(cè)困難,最后一個(gè)卷積層的感受野范圍很大,使得小目標(biāo)特征不明顯。
圖2.5 SSD和YOLO網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比
2.6 R-SSD
2017年首爾大學(xué)提出了R-SSD算法,解決了SSD算法中不同層feature map都是獨(dú)立作為分類(lèi)網(wǎng)絡(luò)的輸入,容易出現(xiàn)相同物體被不同大小的框同時(shí)檢測(cè)出來(lái)的情況,還有對(duì)小尺寸物體的檢測(cè)效果比較差的情況。R-SSD算法一方面利用分類(lèi)網(wǎng)絡(luò)增加不同層之間的feature map聯(lián)系,減少重復(fù)框的出現(xiàn);另一方面增加feature pyramid中feature map的個(gè)數(shù),使其可以檢測(cè)更多的小尺寸物體。
特征融合方式采用同時(shí)利用pooling和deconvolution進(jìn)行特征融合,這種特征融合方式使得融合后每一層的feature map個(gè)數(shù)都相同,因此可以共用部分參數(shù),具體來(lái)講就是default boxes的參數(shù)共享。
圖2.6 三種特征融合方式
2.7 DSSD
為了解決SSD算法檢測(cè)小目標(biāo)困難的問(wèn)題,2017年北卡大學(xué)教堂山分校的Cheng-Yang Fu等提出DSSD算法,將SSD算法基礎(chǔ)網(wǎng)絡(luò)從VGG-16更改為ResNet-101,增強(qiáng)網(wǎng)絡(luò)特征提取能力,其次參考FPN算法思路利用去卷積結(jié)構(gòu)將圖像深層特征從高維空間傳遞出來(lái),與淺層信息融合,聯(lián)系不同層級(jí)之間的圖像語(yǔ)義關(guān)系,設(shè)計(jì)預(yù)測(cè)模塊結(jié)構(gòu),通過(guò)不同層級(jí)特征之間融合特征輸出預(yù)測(cè)物體類(lèi)別信息。
DSSD算法中有兩個(gè)特殊的結(jié)構(gòu):Prediction模塊;Deconvolution模塊。前者利用提升每個(gè)子任務(wù)的表現(xiàn)來(lái)提高準(zhǔn)確性,并且防止梯度直接流入ResNet主網(wǎng)絡(luò)。后者則增加了三個(gè)Batch Normalization層和三個(gè)3×3卷積層,其中卷積層起到了緩沖的作用,防止梯度對(duì)主網(wǎng)絡(luò)影響太劇烈,保證網(wǎng)絡(luò)的穩(wěn)定性。
圖2.7 SSD和DSSD網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比
2.8 DSOD
2017年復(fù)旦大學(xué)提出DSOD算法,其并不是在mAP上和其他檢測(cè)算法做比較,看誰(shuí)的算法更有效或者速度更快,而是從另一個(gè)角度切入說(shuō)明fine-tune和直接訓(xùn)練檢測(cè)模型的差異其實(shí)是可以減小的,也就是說(shuō)訓(xùn)練一個(gè)檢測(cè)模型可以不需要大量的數(shù)據(jù)和預(yù)訓(xùn)練好的模型。
這是由于預(yù)訓(xùn)練模型的限制導(dǎo)致:遷移模型結(jié)構(gòu)靈活性差,難以改變網(wǎng)絡(luò)結(jié)構(gòu);分類(lèi)任務(wù)預(yù)訓(xùn)練模型和檢測(cè)任務(wù)訓(xùn)練會(huì)有學(xué)習(xí)偏差;雖然微調(diào)會(huì)減少不同目標(biāo)類(lèi)別分布的差異性,但深度圖等特殊圖像遷移效果差異較大。
SSD算法是在六個(gè)尺度的特征圖上進(jìn)行檢測(cè),將這六個(gè)檢測(cè)結(jié)果綜合起來(lái),DSOD算法則則根據(jù)DenseNet的設(shè)計(jì)原理,將相鄰的檢測(cè)結(jié)果一半一半的結(jié)合起來(lái)。DSOD算法是基于SSD算法基礎(chǔ)上做的修改,采用的特征提取網(wǎng)絡(luò)是DenseNet。
采用Dense Block結(jié)構(gòu),能避免梯度消失的情況。同時(shí)利用Dense Prediction結(jié)構(gòu),也能大大減少模型的參數(shù)量,特征包含更多信息。設(shè)計(jì)stem結(jié)構(gòu)能減少輸入圖片信息的丟失,stem結(jié)構(gòu)由3×3卷積和2×2的max pool層組成,其還可以提高算法檢測(cè)的mAP。
圖2.8 DSOD預(yù)測(cè)層
2.9 RON
2017年清華大學(xué)提出了RON算法,結(jié)合two stage名的方法和one stage方法的優(yōu)勢(shì),更加關(guān)注多尺度對(duì)象定位和負(fù)空間樣本挖掘問(wèn)題。
多尺度對(duì)象定位——各種尺度的物體可能出現(xiàn)在圖像的任何位置,因此應(yīng)考慮成千上萬(wàn)個(gè)具有不同位置/尺度/方位的區(qū)域。多尺度表征將顯著改善各種尺度的物體檢測(cè),但是這些方法總是在網(wǎng)絡(luò)的一層檢測(cè)到各種尺度的對(duì)象;
負(fù)空間挖掘——對(duì)象和非對(duì)象樣本之間的比例嚴(yán)重不平衡。因此,對(duì)象檢測(cè)器應(yīng)該具有有效的負(fù)挖掘策略。
RON算法通過(guò)設(shè)計(jì)方向連接結(jié)構(gòu),利用多尺度表征顯著改善各種多尺度物體檢測(cè),同時(shí)為了減少對(duì)象搜索空間,在卷積特征圖創(chuàng)建objectness prior引導(dǎo)目標(biāo)對(duì)象搜索,訓(xùn)練時(shí)將檢測(cè)器進(jìn)行聯(lián)合優(yōu)化。并通過(guò)多任務(wù)損失函數(shù)聯(lián)合優(yōu)化了反向連接、objectness prior和對(duì)象檢測(cè),因此可直接預(yù)測(cè)各種特征圖所有位置的最終檢測(cè)結(jié)果。
圖2.9 RON
3. 總結(jié)
隨著深度學(xué)習(xí)技術(shù)在圖像各領(lǐng)域的研究深入,出現(xiàn)越來(lái)越多的新理論、新方法。two stage的方法和基于回歸思想的one stage方法兩者相互借鑒,不斷融合,取得了很好的效果,也為我們展示了一些未來(lái)發(fā)展趨勢(shì):
參考上下文特征的多特征融合;
多尺度的對(duì)象定位;
結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的圖像語(yǔ)義分析。
部分目標(biāo)檢測(cè)算法精度和速度對(duì)比
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4726.html
摘要:阿里安全一直以來(lái)致力于用技術(shù)解決社會(huì)問(wèn)題。為了增加對(duì)抗驗(yàn)證碼的識(shí)別難度,又不影響正常用戶(hù)的體驗(yàn),算法專(zhuān)家們又在圖像區(qū)域和生成方式上進(jìn)行了組合擴(kuò)展,最終生成的對(duì)抗樣驗(yàn)證碼有效抵御了黑灰產(chǎn)的批量破解,成為阿里業(yè)務(wù)安全的一道銅墻鐵壁。 showImg(https://segmentfault.com/img/remote/1460000018478161); 我們知道,AI 技術(shù)將在很長(zhǎng)一段...
閱讀 3688·2021-09-22 15:34
閱讀 1200·2019-08-29 17:25
閱讀 3410·2019-08-29 11:18
閱讀 1384·2019-08-26 17:15
閱讀 1755·2019-08-23 17:19
閱讀 1241·2019-08-23 16:15
閱讀 729·2019-08-23 16:02
閱讀 1348·2019-08-23 15:19