深度學(xué)習(xí)時(shí)代的目標(biāo)檢測(cè)算法

wfc_666 發(fā)布于2019-04-25 18:24 / 3194人閱讀

摘要：目前目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類(lèi)的目標(biāo)檢測(cè)算法的目標(biāo)檢測(cè)算法。原來(lái)多數(shù)的目標(biāo)檢測(cè)算法都是只采用深層特征做預(yù)測(cè)，低層的特征語(yǔ)義信息比較少，但是目標(biāo)位置準(zhǔn)確高層的特征語(yǔ)義信息比較豐富，但是目標(biāo)位置比較粗略。

目前目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類(lèi)：two stage的目標(biāo)檢測(cè)算法；one stage的目標(biāo)檢測(cè)算法。前者是先由算法生成一系列作為樣本的候選框，再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本分類(lèi)；后者則不用產(chǎn)生候選框，直接將目標(biāo)邊框定位的問(wèn)題轉(zhuǎn)化為回歸問(wèn)題處理。正是由于兩種方法的差異，在性能上也有不同，前者在檢測(cè)準(zhǔn)確率和定位精度上占優(yōu)，后者在算法速度上占優(yōu)。

目標(biāo)檢測(cè)算法脈絡(luò)

1. two stage的方法

在早期深度學(xué)習(xí)技術(shù)發(fā)展進(jìn)程中，主要都是圍繞分類(lèi)問(wèn)題展開(kāi)研究，這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)特有的結(jié)構(gòu)輸出將概率統(tǒng)計(jì)和分類(lèi)問(wèn)題結(jié)合，提供一種直觀易行的思路。國(guó)內(nèi)外研究人員雖然也在致力于將其他如目標(biāo)檢測(cè)領(lǐng)域和深度學(xué)習(xí)結(jié)合，但都沒(méi)有取得成效，這種情況直到R-CNN算法出現(xiàn)才得以解決。

1.1 R-CNN

2014年加州大學(xué)伯克利分校的Ross B. Girshick提出R-CNN算法，其在效果上超越同期的Yann Lecun提出的端到端方法OverFeat算法，其算法結(jié)構(gòu)也成為后續(xù)two stage的經(jīng)典結(jié)構(gòu)。

R-CNN算法利用選擇性搜索（Selective Search）算法評(píng)測(cè)相鄰圖像子塊的特征相似度，通過(guò)對(duì)合并后的相似圖像區(qū)域打分，選擇出感興趣區(qū)域的候選框作為樣本輸入到卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)部，由網(wǎng)絡(luò)學(xué)習(xí)候選框和標(biāo)定框組成的正負(fù)樣本特征，形成對(duì)應(yīng)的特征向量，再由支持向量機(jī)設(shè)計(jì)分類(lèi)器對(duì)特征向量分類(lèi)，最后對(duì)候選框以及標(biāo)定框完成邊框回歸操作達(dá)到目標(biāo)檢測(cè)的定位目的。

雖然R-CNN算法相較于傳統(tǒng)目標(biāo)檢測(cè)算法取得了50%的性能提升，但其也有缺陷存在：訓(xùn)練網(wǎng)絡(luò)的正負(fù)樣本候選區(qū)域由傳統(tǒng)算法生成，使得算法速度受到限制；卷積神經(jīng)網(wǎng)絡(luò)需要分別對(duì)每一個(gè)生成的候選區(qū)域進(jìn)行一次特征提取，實(shí)際存在大量的重復(fù)運(yùn)算，制約了算法性能。

圖1.1 R-CNN

1.2 SPP-Net

圖1.2 spatial pyramid pooling layer

針對(duì)卷積神經(jīng)網(wǎng)絡(luò)重復(fù)運(yùn)算問(wèn)題，2015年微軟研究院的何愷明等提出一種SPP-Net算法，通過(guò)在卷積層和全連接層之間加入空間金字塔池化結(jié)構(gòu)（Spatial Pyramid Pooling）代替R-CNN算法在輸入卷積神經(jīng)網(wǎng)絡(luò)前對(duì)各個(gè)候選區(qū)域進(jìn)行剪裁、縮放操作使其圖像子塊尺寸一致的做法。

利用空間金字塔池化結(jié)構(gòu)有效避免了R-CNN算法對(duì)圖像區(qū)域剪裁、縮放操作導(dǎo)致的圖像物體剪裁不全以及形狀扭曲等問(wèn)題，更重要的是解決了卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像重復(fù)特征提取的問(wèn)題，大大提高了產(chǎn)生候選框的速度，且節(jié)省了計(jì)算成本。但是和R-CNN算法一樣訓(xùn)練數(shù)據(jù)的圖像尺寸大小不一致，導(dǎo)致候選框的ROI感受野大，不能利用BP高效更新權(quán)重。

1.3 Fast R-CNN

針對(duì)SPP-Net算法的問(wèn)題，2015年微軟研究院的Ross B. Girshick又提出一種改進(jìn)的Fast R-CNN算法，借鑒SPP-Net算法結(jié)構(gòu)，設(shè)計(jì)一種ROI pooling的池化層結(jié)構(gòu)，有效解決R-CNN算法必須將圖像區(qū)域剪裁、縮放到相同尺寸大小的操作。

提出多任務(wù)損失函數(shù)思想，將分類(lèi)損失和邊框回歸損失結(jié)合統(tǒng)一訓(xùn)練學(xué)習(xí)，并輸出對(duì)應(yīng)分類(lèi)和邊框坐標(biāo)，不再需要額外的硬盤(pán)空間來(lái)存儲(chǔ)中間層的特征，梯度能夠通過(guò)RoI Pooling層直接傳播。但是其仍然沒(méi)有擺脫選擇性搜索算法生成正負(fù)樣本候選框的問(wèn)題。

圖1.3 Fast R-CNN

1.4 Faster R-CNN

為了解決Fast R-CNN算法缺陷，使得算法實(shí)現(xiàn)two stage的全網(wǎng)絡(luò)結(jié)構(gòu)，2015年微軟研究院的任少慶、何愷明以及Ross B Girshick等人又提出了Faster R-CNN算法。設(shè)計(jì)輔助生成樣本的RPN（Region Proposal Networks）網(wǎng)絡(luò)，將算法結(jié)構(gòu)分為兩個(gè)部分，先由RPN網(wǎng)絡(luò)判斷候選框是否為目標(biāo)，再經(jīng)分類(lèi)定位的多任務(wù)損失判斷目標(biāo)類(lèi)型，整個(gè)網(wǎng)絡(luò)流程都能共享卷積神經(jīng)網(wǎng)絡(luò)提取的的特征信息，節(jié)約計(jì)算成本，且解決Fast R-CNN算法生成正負(fù)樣本候選框速度慢的問(wèn)題，同時(shí)避免候選框提取過(guò)多導(dǎo)致算法準(zhǔn)確率下降。

但是由于RPN網(wǎng)絡(luò)可在固定尺寸的卷積特征圖中生成多尺寸的候選框，導(dǎo)致出現(xiàn)可變目標(biāo)尺寸和固定感受野不一致的現(xiàn)象。

圖1.4 Faster R-CNN

1.5 MR-CNN

2015年巴黎科技大學(xué)提出MR-CNN算法，結(jié)合樣本區(qū)域本身的特征，利用樣本區(qū)域周?chē)蓸拥奶卣骱蛨D像分割的特征來(lái)提高識(shí)別率，可將檢測(cè)問(wèn)題分解為分類(lèi)和定位問(wèn)題。

圖1.5 MR-CNN

分類(lèi)問(wèn)題由Multi-Region CNN Model和Semantic Segmentation-Aware CNN Model組成。前者的候選框由Selective Search得到，對(duì)于每一個(gè)樣本區(qū)域，取10個(gè)區(qū)域分別提取特征后拼接，這樣可以強(qiáng)制網(wǎng)絡(luò)捕捉物體的不同方面，同時(shí)可以增強(qiáng)網(wǎng)絡(luò)對(duì)于定位不準(zhǔn)確的敏感性，其中adaptive max pooling即ROI max pooling；后者使用FCN進(jìn)行目標(biāo)分割，將最后一層的feature map和前者產(chǎn)生的feature map拼接，作為最后的feature map。

為了較精確定位，采用三種樣本邊框修正方法，分別為Bbox regression、Iterative localization以及Bounding box voting。Bbox regression：在Multi-Region CNN Model中整幅圖經(jīng)過(guò)網(wǎng)路的最后一層卷積層后，接一個(gè)Bbox regression layer，與RPN不同，此處的regression layer是兩層FC以及一層prediction layer，為了防止Selective Search得到的框過(guò)于貼近物體而導(dǎo)致無(wú)法很好的框定物體，將候選框擴(kuò)大為原來(lái)的1.3倍再做。

Iterative localization：初始的框是Selective Search得到的框，然后用已有的分類(lèi)模型對(duì)框做出估值，低于給定閾值的框被篩掉，剩下的框用Bbox regression的方法調(diào)整大小，并迭代篩選。Bounding box voting：首先對(duì)經(jīng)過(guò)Iterative localization處理后的框應(yīng)用NMS, IOU = 0.3，得到檢測(cè)結(jié)果，然后對(duì)于每一個(gè)框，用每一個(gè)和其同一類(lèi)的而且IOU >0.5的框加權(quán)坐標(biāo)，得到最后的目標(biāo)樣本框。

1.6 HyperNet

2016年清華大學(xué)提出HyperNet算法，其利用網(wǎng)絡(luò)多個(gè)層級(jí)提取的特征，且從較前層獲取的精細(xì)特征可以減少對(duì)于小物體檢測(cè)的缺陷。將提取到的不同層級(jí)feature map通過(guò)較大池化降維或逆卷積擴(kuò)增操作使得所有feature map尺寸一致，并利用LRN正則化堆疊，形成Hyper

Feature maps，其具有多層次抽象、合適分辨率以及計(jì)算時(shí)效性的優(yōu)點(diǎn)。接著通過(guò)region proposal generation module結(jié)構(gòu)進(jìn)行預(yù)測(cè)和定位，僅保留置信度較高的N個(gè)樣本框進(jìn)行判斷。

圖1.6 HyperNet

1.7 CRAFT

圖1.7 CRAFT

R-CNN系列算法的第一階段是生成目標(biāo)proposals，第二階段是對(duì)目標(biāo)proposals進(jìn)行分類(lèi)，2016年中科院自動(dòng)化所提出的CRAFT算法分別對(duì)Faster R-CNN中的這兩個(gè)階段進(jìn)行了一定的改進(jìn)。

對(duì)于生成目標(biāo)proposals階段，在RPN的后面加了一個(gè)二值的Fast R-CNN分類(lèi)器來(lái)對(duì)RPN生成的proposals進(jìn)行進(jìn)一步的篩選，留下一些高質(zhì)量的proposals；對(duì)于第二階段的目標(biāo)proposals分類(lèi)，在原來(lái)的分類(lèi)器后又級(jí)聯(lián)了N個(gè)類(lèi)別（不包含背景類(lèi)）的二值分類(lèi)器以進(jìn)行更精細(xì)的目標(biāo)檢測(cè)。

1.8 R-FCN

圖1.8 R-FCN

隨著全卷積網(wǎng)絡(luò)的出現(xiàn)，2016年微軟研究院的Jifeng Dai等提出R-FCN算法。相較于Faster R-CNN算法只能計(jì)算ROI pooling層之前的卷積網(wǎng)絡(luò)特征參數(shù)，R-FCN算法提出一種位置敏感分布的卷積網(wǎng)絡(luò)代替ROI pooling層之后的全連接網(wǎng)絡(luò)，解決了Faster R-CNN由于ROI

Pooling層后面的結(jié)構(gòu)需要對(duì)每一個(gè)樣本區(qū)域跑一次而耗時(shí)比較大的問(wèn)題，使得特征共享在整個(gè)網(wǎng)絡(luò)內(nèi)得以實(shí)現(xiàn)，解決物體分類(lèi)要求有平移不變性和物體檢測(cè)要求有平移變化的矛盾，但是沒(méi)有考慮到region proposal的全局信息和語(yǔ)義信息。

1.9 MS-CNN

針對(duì)Faster R-CNN算法的遺留問(wèn)題，2016年加州大學(xué)圣地亞哥分校的Z Cai提出了MS-CNN算法，通過(guò)利用Faster R-CNN算法結(jié)構(gòu)的多個(gè)不同層級(jí)輸出的特征結(jié)果來(lái)檢測(cè)目標(biāo)，將不同層級(jí)的檢測(cè)器互補(bǔ)形成多尺度的強(qiáng)檢測(cè)器，應(yīng)用淺層特征檢測(cè)小尺寸目標(biāo)，應(yīng)用深層特征檢測(cè)大尺寸目標(biāo)。并且利用去卷積層代替圖像上采樣來(lái)增加圖像分辨率，減少內(nèi)存占用，提高運(yùn)行速度。

圖1.9 MS-CNN的特征網(wǎng)絡(luò)

1.10 PVANet

針對(duì)的就是算法的運(yùn)算速度提升問(wèn)題，2016年底Intel圖像技術(shù)團(tuán)隊(duì)提出了一個(gè)輕量級(jí)的網(wǎng)絡(luò)，取得了state-of-the-art的效果。PVANet主要分為特征抽取網(wǎng)絡(luò)和檢測(cè)網(wǎng)絡(luò)，基于多層少通道的基本原則，在網(wǎng)絡(luò)淺層采用C.ReLU結(jié)構(gòu)，在網(wǎng)絡(luò)深層采用Inception模塊，其中前者是將K×K卷積結(jié)構(gòu)表示1×1 - K×K - 1×1的卷積層的堆疊，后者設(shè)計(jì)原則是由于為了檢測(cè)圖像中的大目標(biāo)，需要足夠大的感受野，可通過(guò)堆疊3×3的卷積核實(shí)現(xiàn)，但是為了捕獲小目標(biāo)，則需要小一點(diǎn)的感受野，可通過(guò)1×1的卷積核實(shí)現(xiàn)，且可以避免大卷積核造成的參數(shù)冗余問(wèn)題。

PVANet應(yīng)用多尺度特征級(jí)聯(lián)較大化目標(biāo)檢測(cè)任務(wù)的多尺度性質(zhì)，權(quán)重衰減策略采用一定迭代次數(shù)內(nèi)loss不再下降，則將學(xué)習(xí)速率降低常數(shù)倍的方式，通過(guò)batch normalization和residual連接實(shí)現(xiàn)高效的訓(xùn)練。

圖1.10 PVANet

1.11 FPN

2017年Facebook的Tsung-Yi Lin等提出了FPN算法，利用不同層的特征圖進(jìn)行不同尺寸的目標(biāo)預(yù)測(cè)。原來(lái)多數(shù)的目標(biāo)檢測(cè)算法都是只采用深層特征做預(yù)測(cè)，低層的特征語(yǔ)義信息比較少，但是目標(biāo)位置準(zhǔn)確；高層的特征語(yǔ)義信息比較豐富，但是目標(biāo)位置比較粗略。

另外雖然也有些算法采用多尺度特征融合的方式，但是一般是采用融合后的特征做預(yù)測(cè)，而FPN算法不一樣的地方在于預(yù)測(cè)是在不同特征層獨(dú)立進(jìn)行的，利用深層特征通過(guò)上采樣和低層特征做融合。

FPN算法主網(wǎng)絡(luò)是ResNet，結(jié)構(gòu)主要是一個(gè)自底向上的線(xiàn)路橫向連接一個(gè)自頂向下的線(xiàn)路。自底向上其實(shí)就是網(wǎng)絡(luò)的前向過(guò)程，在前向過(guò)程中，feature map的大小在經(jīng)過(guò)某些層后會(huì)改變，而在經(jīng)過(guò)其他一些層的時(shí)候不會(huì)改變，F(xiàn)PN算法將不改變feature map大小的層歸為一個(gè)stage，因此每次抽取的特征都是每個(gè)stage的最后一個(gè)層輸出，這樣就能構(gòu)成特征金字塔。

自頂向下的過(guò)程采用上采樣進(jìn)行，而橫向連接則是將上采樣的結(jié)果和自底向上生成的相同大小的feature map并一一對(duì)應(yīng)進(jìn)行融合，在融合之后還會(huì)再采用3×3的卷積核對(duì)每個(gè)融合結(jié)果進(jìn)行卷積，目的是消除上采樣的混疊效應(yīng)。

圖1.11 FPN

1.12 Mask R-CNN

為了解決R-CNN算法為代表的two stage的方法問(wèn)題，2017年Facebook的何愷明等提出了Mask R-CNN算法，取得了很好的識(shí)別效果。

Mask R-CNN算法將ROI_Pooling層替換成了ROI_Align，并且在邊框識(shí)別的基礎(chǔ)上添加分支FCN層（mask層），用于語(yǔ)義Mask識(shí)別，通過(guò)RPN網(wǎng)絡(luò)生成目標(biāo)候選框，再對(duì)每個(gè)目標(biāo)候選框分類(lèi)判斷和邊框回歸，同時(shí)利用全卷積網(wǎng)絡(luò)對(duì)每個(gè)目標(biāo)候選框預(yù)測(cè)分割掩膜。

加入的掩膜預(yù)測(cè)結(jié)構(gòu)解決了特征圖像和原始圖像上的ROI不對(duì)準(zhǔn)問(wèn)題，避免對(duì)ROI邊界做任何量化，而用雙線(xiàn)性插值到對(duì)準(zhǔn)特征，再用池化操作融合。掩膜編碼了輸入圖像的空間布局，用全卷積網(wǎng)絡(luò)預(yù)測(cè)每個(gè)目標(biāo)候選框的掩膜能完整的保留空間結(jié)構(gòu)信息，實(shí)現(xiàn)目標(biāo)像素級(jí)分割定位。

圖1.12 Mask R-CNN

1.13 A-Fast-RCNN

A-Fast-RCNN算法是2017年卡內(nèi)基梅隆大學(xué)提出的，其將對(duì)抗學(xué)習(xí)引入到目標(biāo)檢測(cè)問(wèn)題中，通過(guò)對(duì)抗網(wǎng)絡(luò)生成一下遮擋和變形的訓(xùn)練樣本來(lái)訓(xùn)練檢測(cè)網(wǎng)絡(luò)，從而使得網(wǎng)絡(luò)能夠?qū)φ趽鹾妥冃螁?wèn)題更加的魯棒。使用對(duì)抗網(wǎng)絡(luò)生成有遮擋和有形變的兩種特征，兩種網(wǎng)絡(luò)分別為ASDN和ASTN。

ASDN利用Fast R-CNN中ROI池化層之后的每個(gè)目標(biāo)proposal卷積特征作為對(duì)抗網(wǎng)絡(luò)的輸入，給定一個(gè)目標(biāo)的特征，ASDN嘗試生成特征某些部分被dropout的掩碼，導(dǎo)致檢測(cè)器無(wú)法識(shí)別該物體。

在前向傳播過(guò)程中，首先使用ASDN在ROI池化層之后生成特征掩碼，然后使用重要性采樣法生成二值掩碼，使用該掩碼將特征對(duì)應(yīng)部位值清零，修改后的特征繼續(xù)前向傳播計(jì)算損失，這個(gè)過(guò)程生成了困難的特征，用于訓(xùn)練檢測(cè)器。

ASTN主要關(guān)注特征旋轉(zhuǎn)，定位網(wǎng)絡(luò)包含三層全連接層，前兩層是ImageNet預(yù)訓(xùn)練的FC6和FC7，訓(xùn)練過(guò)程與ASDN類(lèi)似，ASTN對(duì)特征進(jìn)行形變，將特征圖劃分為4個(gè)block，每個(gè)block估計(jì)四個(gè)方向的旋轉(zhuǎn)，增加了任務(wù)的復(fù)雜度。兩種對(duì)抗網(wǎng)絡(luò)可以相結(jié)合，使得檢測(cè)器更魯棒，ROI池化層提取的特征首先傳入ASDN丟棄一些激活，之后使用ASTN對(duì)特征進(jìn)行形變。

圖1.13 A-Fast-RCNN

1.14 CoupleNet

針對(duì)R-FCN算法沒(méi)有考慮到region proposal的全局信息和語(yǔ)義信息的問(wèn)題，2017年中科院自動(dòng)化所提出CoupleNet算法，其在原來(lái)R-FCN的基礎(chǔ)上引入了proposal的全局和語(yǔ)義信息，通過(guò)結(jié)合局部、全局以及語(yǔ)義的信息，提高了檢測(cè)的精度。

圖1.14 CoupleNet

CoupleNet結(jié)構(gòu)利用三支并行網(wǎng)絡(luò)實(shí)現(xiàn)檢測(cè)，上面的支路網(wǎng)絡(luò)使用原本的R-FCN結(jié)構(gòu)的位置敏感分布圖提取目標(biāo)的局部信息；中間的支路網(wǎng)絡(luò)用于提取目標(biāo)的全局信息，對(duì)于一個(gè)region proposal，依次通過(guò)K×K的ROI Pooling，K×K的conv以及1×1的conv；下面的支路網(wǎng)絡(luò)用于提取目標(biāo)的語(yǔ)義信息，對(duì)于一個(gè)region proposal，首先選擇以這個(gè)proposal為中心，面積是原來(lái)2倍的proposal，同樣依次通過(guò)K×K的ROI Pooling，K×K的conv以及1×1的conv。最后先各自通過(guò)1×1的conv調(diào)整激活值的尺寸，然后把Local FCN和Global FCN結(jié)果對(duì)應(yīng)位置元素相加，再通過(guò)一個(gè)softmax實(shí)現(xiàn)分類(lèi)。

1.15 MegDet

基于CNN的物體檢測(cè)研究一直在不斷進(jìn)步，從R-CNN到Fast/Faster R-CNN，再M(fèi)ask R-CNN，主要的改進(jìn)點(diǎn)都在于新的網(wǎng)絡(luò)架構(gòu)、新的范式、或者新的損失函數(shù)設(shè)計(jì)，然而mini-batch大小，這個(gè)訓(xùn)練中的關(guān)鍵因素并沒(méi)有得到完善的研究。

由于輸入圖片尺寸的增長(zhǎng)，圖像檢測(cè)所需顯存量也會(huì)同比例增長(zhǎng)，這也使得已有的深度學(xué)習(xí)框架無(wú)法訓(xùn)練大mini-batch的圖像檢測(cè)模型，而小mini-batch的物體檢測(cè)算法又常常會(huì)引入不穩(wěn)定的梯度、BN層統(tǒng)計(jì)不準(zhǔn)確、正負(fù)樣本比例失調(diào)以及超長(zhǎng)訓(xùn)練時(shí)間的問(wèn)題。因此，2017年12月Face++提出一種大mini-batch的目標(biāo)檢測(cè)算法MegDet。

圖1.15 多GPU的Batch Normalization

MegDet算法可以使用遠(yuǎn)大于以往的mini-batch大小訓(xùn)練網(wǎng)絡(luò)（比如從16增大到256），這樣同時(shí)也可以高效地利用多塊GPU聯(lián)合訓(xùn)練（在論文的實(shí)驗(yàn)中最多使用了128塊GPU），大大縮短訓(xùn)練時(shí)間。

同時(shí)，解決了BN統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題，也提出了一種學(xué)習(xí)率選擇策略以及跨GPU的Batch Normalization方法，兩者共同使用就得以大幅度減少大mini-batch物體檢測(cè)器的訓(xùn)練時(shí)間（比如從33小時(shí)減少到僅僅4個(gè)小時(shí)），同時(shí)還可以達(dá)到更高的準(zhǔn)確率。

1.16 Light-Head R-CNN

2017年12月Face++提出了一種為了使two stage的檢測(cè)算法Light-Head R-CNN，主要探討了R-CNN如何在物體檢測(cè)中平衡較精確度和速度。Light-Head R-CNN提出了一種更好的two-stage detector設(shè)計(jì)結(jié)構(gòu)，使用一個(gè)大內(nèi)核可分卷積和少量通道生成稀疏的特征圖。

該設(shè)計(jì)的計(jì)算量使隨后的ROI子網(wǎng)絡(luò)計(jì)算量大幅降低，檢測(cè)系統(tǒng)所需內(nèi)存減少。將一個(gè)廉價(jià)的全連接層附加到池化層上，充分利用分類(lèi)和回歸的特征表示。因其輕量級(jí)頭部結(jié)構(gòu)，該檢測(cè)器能夠?qū)崿F(xiàn)速度和準(zhǔn)確率之間的最優(yōu)權(quán)衡，不管使用的是大主干網(wǎng)絡(luò)還是小主干網(wǎng)絡(luò)。

基于ResNet101網(wǎng)絡(luò)達(dá)到了新的state-of-the-art的結(jié)果40.6，超過(guò)了Mask R-CNN和RetinaNet。同時(shí)如果是用一個(gè)更小的網(wǎng)絡(luò)，比如類(lèi)似Xception的小模型，達(dá)到了100+FPS，30.7mmap，效率上超過(guò)了SSD和YOLO。

圖1.16 Light-Head R-CNN

2. one stage的方法

以R-CNN算法為代表的two stage的方法由于RPN結(jié)構(gòu)的存在，雖然檢測(cè)精度越來(lái)越高，但是其速度卻遇到瓶頸，比較難于滿(mǎn)足部分場(chǎng)景實(shí)時(shí)性的需求。因此出現(xiàn)一種基于回歸方法的one stage的目標(biāo)檢測(cè)算法，不同于two stage的方法的分步訓(xùn)練共享檢測(cè)結(jié)果，one stage的方法能實(shí)現(xiàn)完整單次訓(xùn)練共享特征，且在保證一定準(zhǔn)確率的前提下，速度得到極大提升。

2.1 OverFeat

2013年Yann Lecun在紐約大學(xué)的團(tuán)隊(duì)提出了著名的OverFeat算法，其利用滑動(dòng)窗口和規(guī)則塊生成候選框，再利用多尺度滑動(dòng)窗口增加檢測(cè)結(jié)果，解決圖像目標(biāo)形狀復(fù)雜、尺寸不一問(wèn)題，最后利用卷積神經(jīng)網(wǎng)絡(luò)和回歸模型分類(lèi)、定位目標(biāo)。該算法首次將分類(lèi)、定位以及檢測(cè)三個(gè)計(jì)算機(jī)視覺(jué)任務(wù)放在一起解決，獲得同年ILSVRC 2013任務(wù)3（分類(lèi)+定位）的冠軍，但其很快就被同期的R-CNN算法取代。

圖2.1 用于檢測(cè)的高效卷積

2.2 YOLO

2015年華盛頓大學(xué)的Joseph Redmon等提出的YOLO算法繼承了OverFeat算法這種基于回歸的one stage方法，速度能達(dá)到每秒45幀，由于其速度優(yōu)勢(shì)迅速成為端到端方法的領(lǐng)先者。YOLO算法是基于圖像的全局信息進(jìn)行預(yù)測(cè)的，整體結(jié)構(gòu)簡(jiǎn)單，通過(guò)將輸入圖像重整到448×448像素固定尺寸大小，并劃分圖像為7×7網(wǎng)格區(qū)域，通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取特征訓(xùn)練，直接預(yù)測(cè)每個(gè)網(wǎng)格內(nèi)的邊框坐標(biāo)和每個(gè)類(lèi)別置信度，訓(xùn)練時(shí)采用P-Relu激活函數(shù)。但是存在定位不準(zhǔn)以及召回率不如基于區(qū)域提名方法的問(wèn)題，且對(duì)距離很近的物體和很小的物體檢測(cè)效果不好，泛化能力相對(duì)較弱。

圖2.2 YOLO

2.3 YOLOv2 & YOLO9000

經(jīng)過(guò)Joseph Redmon等的改進(jìn)，YOLOv2和YOLO9000算法在2017年CVPR上被提出，并獲得較佳論文提名，重點(diǎn)解決召回率和定位精度方面的誤差。采用Darknet-19作為特征提取網(wǎng)絡(luò)，增加了批量歸一化（Batch Normalization）的預(yù)處理，并使用224×224和448×448兩階段訓(xùn)練ImageNet預(yù)訓(xùn)練模型后fine-tuning。

相比于原來(lái)的YOLO是利用全連接層直接預(yù)測(cè)bounding box的坐標(biāo)，YOLOv2借鑒了Faster R-CNN的思想，引入anchor機(jī)制，利用K-Means聚類(lèi)的方式在訓(xùn)練集中聚類(lèi)計(jì)算出更好的anchor模板，在卷積層使用anchorboxes操作，增加候選框的預(yù)測(cè)，同時(shí)采用較強(qiáng)約束的定位方法，大大提高算法召回率。結(jié)合圖像細(xì)粒度特征，將淺層特征與深層特征相連，有助于對(duì)小尺寸目標(biāo)的檢測(cè)。

圖2.3 YOLOv2在VOC2007上的速度和精度

2.4 G-CNN

由于巨大的proposal數(shù)量使得后續(xù)檢測(cè)效率降低，2016年馬里蘭大學(xué)的M Najibi等提出一種起始于網(wǎng)格迭代的G-CNN算法。通過(guò)初始化對(duì)圖像劃分回歸后得到更加接近物體的候選框，再利用回歸框作為原始窗口進(jìn)行回歸調(diào)整，解決了以往的基于區(qū)域提名方法通過(guò)海量潛在候選框直接進(jìn)行目標(biāo)搜索，抑制負(fù)樣本的缺陷。

在訓(xùn)練階段，首先在圖像中獲取疊加的多尺度的規(guī)則網(wǎng)格（實(shí)際網(wǎng)格相互疊加），然后通過(guò)ground truth與每一個(gè)網(wǎng)格的IOU進(jìn)行每一個(gè)網(wǎng)格ground truth的分配，并完成訓(xùn)練過(guò)程，使得網(wǎng)格在回歸過(guò)程中漸漸接近ground truth。在檢測(cè)階段，對(duì)于每一個(gè)樣本框針對(duì)每一類(lèi)獲得置信分?jǐn)?shù)，用最可能類(lèi)別的回歸器來(lái)更新樣本框的位置。

圖2.4 G-CNN

2.5 SSD

針對(duì)YOLO類(lèi)算法的定位精度問(wèn)題，2016年12月北卡大學(xué)教堂山分校的Wei Liu等提出SSD算法，將YOLO的回歸思想和Faster R-CNN的anchor box機(jī)制結(jié)合。通過(guò)在不同卷積層的特征圖上預(yù)測(cè)物體區(qū)域，輸出離散化的多尺度、多比例的default boxes坐標(biāo)，同時(shí)利用小卷積核預(yù)測(cè)一系列候選框的邊框坐標(biāo)補(bǔ)償和每個(gè)類(lèi)別的置信度。

在整幅圖像上各個(gè)位置用多尺度區(qū)域的局部特征圖邊框回歸，保持YOLO算法快速特性的同時(shí)，也保證了邊框定位效果和Faster R-CNN類(lèi)似。但因其利用多層次特征分類(lèi)，導(dǎo)致其對(duì)于小目標(biāo)檢測(cè)困難，最后一個(gè)卷積層的感受野范圍很大，使得小目標(biāo)特征不明顯。

圖2.5 SSD和YOLO網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比

2.6 R-SSD

2017年首爾大學(xué)提出了R-SSD算法，解決了SSD算法中不同層feature map都是獨(dú)立作為分類(lèi)網(wǎng)絡(luò)的輸入，容易出現(xiàn)相同物體被不同大小的框同時(shí)檢測(cè)出來(lái)的情況，還有對(duì)小尺寸物體的檢測(cè)效果比較差的情況。R-SSD算法一方面利用分類(lèi)網(wǎng)絡(luò)增加不同層之間的feature map聯(lián)系，減少重復(fù)框的出現(xiàn)；另一方面增加feature pyramid中feature map的個(gè)數(shù)，使其可以檢測(cè)更多的小尺寸物體。

特征融合方式采用同時(shí)利用pooling和deconvolution進(jìn)行特征融合，這種特征融合方式使得融合后每一層的feature map個(gè)數(shù)都相同，因此可以共用部分參數(shù)，具體來(lái)講就是default boxes的參數(shù)共享。

圖2.6 三種特征融合方式

2.7 DSSD

為了解決SSD算法檢測(cè)小目標(biāo)困難的問(wèn)題，2017年北卡大學(xué)教堂山分校的Cheng-Yang Fu等提出DSSD算法，將SSD算法基礎(chǔ)網(wǎng)絡(luò)從VGG-16更改為ResNet-101，增強(qiáng)網(wǎng)絡(luò)特征提取能力，其次參考FPN算法思路利用去卷積結(jié)構(gòu)將圖像深層特征從高維空間傳遞出來(lái)，與淺層信息融合，聯(lián)系不同層級(jí)之間的圖像語(yǔ)義關(guān)系，設(shè)計(jì)預(yù)測(cè)模塊結(jié)構(gòu)，通過(guò)不同層級(jí)特征之間融合特征輸出預(yù)測(cè)物體類(lèi)別信息。

DSSD算法中有兩個(gè)特殊的結(jié)構(gòu)：Prediction模塊；Deconvolution模塊。前者利用提升每個(gè)子任務(wù)的表現(xiàn)來(lái)提高準(zhǔn)確性，并且防止梯度直接流入ResNet主網(wǎng)絡(luò)。后者則增加了三個(gè)Batch Normalization層和三個(gè)3×3卷積層，其中卷積層起到了緩沖的作用，防止梯度對(duì)主網(wǎng)絡(luò)影響太劇烈，保證網(wǎng)絡(luò)的穩(wěn)定性。

圖2.7 SSD和DSSD網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比

2.8 DSOD

2017年復(fù)旦大學(xué)提出DSOD算法，其并不是在mAP上和其他檢測(cè)算法做比較，看誰(shuí)的算法更有效或者速度更快，而是從另一個(gè)角度切入說(shuō)明fine-tune和直接訓(xùn)練檢測(cè)模型的差異其實(shí)是可以減小的，也就是說(shuō)訓(xùn)練一個(gè)檢測(cè)模型可以不需要大量的數(shù)據(jù)和預(yù)訓(xùn)練好的模型。

這是由于預(yù)訓(xùn)練模型的限制導(dǎo)致：遷移模型結(jié)構(gòu)靈活性差，難以改變網(wǎng)絡(luò)結(jié)構(gòu)；分類(lèi)任務(wù)預(yù)訓(xùn)練模型和檢測(cè)任務(wù)訓(xùn)練會(huì)有學(xué)習(xí)偏差；雖然微調(diào)會(huì)減少不同目標(biāo)類(lèi)別分布的差異性，但深度圖等特殊圖像遷移效果差異較大。

SSD算法是在六個(gè)尺度的特征圖上進(jìn)行檢測(cè)，將這六個(gè)檢測(cè)結(jié)果綜合起來(lái)，DSOD算法則則根據(jù)DenseNet的設(shè)計(jì)原理，將相鄰的檢測(cè)結(jié)果一半一半的結(jié)合起來(lái)。DSOD算法是基于SSD算法基礎(chǔ)上做的修改，采用的特征提取網(wǎng)絡(luò)是DenseNet。

采用Dense Block結(jié)構(gòu)，能避免梯度消失的情況。同時(shí)利用Dense Prediction結(jié)構(gòu)，也能大大減少模型的參數(shù)量，特征包含更多信息。設(shè)計(jì)stem結(jié)構(gòu)能減少輸入圖片信息的丟失，stem結(jié)構(gòu)由3×3卷積和2×2的max pool層組成，其還可以提高算法檢測(cè)的mAP。

圖2.8 DSOD預(yù)測(cè)層

2.9 RON

2017年清華大學(xué)提出了RON算法，結(jié)合two stage名的方法和one stage方法的優(yōu)勢(shì)，更加關(guān)注多尺度對(duì)象定位和負(fù)空間樣本挖掘問(wèn)題。

多尺度對(duì)象定位——各種尺度的物體可能出現(xiàn)在圖像的任何位置，因此應(yīng)考慮成千上萬(wàn)個(gè)具有不同位置/尺度/方位的區(qū)域。多尺度表征將顯著改善各種尺度的物體檢測(cè)，但是這些方法總是在網(wǎng)絡(luò)的一層檢測(cè)到各種尺度的對(duì)象；

負(fù)空間挖掘——對(duì)象和非對(duì)象樣本之間的比例嚴(yán)重不平衡。因此，對(duì)象檢測(cè)器應(yīng)該具有有效的負(fù)挖掘策略。

RON算法通過(guò)設(shè)計(jì)方向連接結(jié)構(gòu)，利用多尺度表征顯著改善各種多尺度物體檢測(cè)，同時(shí)為了減少對(duì)象搜索空間，在卷積特征圖創(chuàng)建objectness prior引導(dǎo)目標(biāo)對(duì)象搜索，訓(xùn)練時(shí)將檢測(cè)器進(jìn)行聯(lián)合優(yōu)化。并通過(guò)多任務(wù)損失函數(shù)聯(lián)合優(yōu)化了反向連接、objectness prior和對(duì)象檢測(cè)，因此可直接預(yù)測(cè)各種特征圖所有位置的最終檢測(cè)結(jié)果。

圖2.9 RON

3. 總結(jié)

隨著深度學(xué)習(xí)技術(shù)在圖像各領(lǐng)域的研究深入，出現(xiàn)越來(lái)越多的新理論、新方法。two stage的方法和基于回歸思想的one stage方法兩者相互借鑒，不斷融合，取得了很好的效果，也為我們展示了一些未來(lái)發(fā)展趨勢(shì)：

參考上下文特征的多特征融合；

多尺度的對(duì)象定位；

結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的圖像語(yǔ)義分析。

部分目標(biāo)檢測(cè)算法精度和速度對(duì)比

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器圖像識(shí)別中的目標(biāo)檢測(cè) 深度學(xué)習(xí)算法是什么目標(biāo)檢測(cè) 目標(biāo)檢測(cè)圖像識(shí)別

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/4726.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

wfc_666

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

域名如何綁定虛擬主機(jī)-如何進(jìn)行域名與虛擬主機(jī)綁定？

閱讀 3688·2021-09-22 15:34
幫你理清React的生命周期

閱讀 1200·2019-08-29 17:25
最簡(jiǎn)單的css reset

閱讀 3410·2019-08-29 11:18
js設(shè)計(jì)模式 --- 模版設(shè)計(jì)模式

閱讀 1384·2019-08-26 17:15
邏輯運(yùn)算符的使用

閱讀 1755·2019-08-23 17:19
React-代碼復(fù)用(mixin.hoc.render props)

閱讀 1241·2019-08-23 16:15
http協(xié)商緩存VS強(qiáng)緩存

閱讀 729·2019-08-23 16:02
[ JavaScript ] 數(shù)據(jù)結(jié)構(gòu)與算法 —— 鏈表

閱讀 1348·2019-08-23 15:19

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

深度學(xué)習(xí)時(shí)代的目標(biāo)檢測(cè)算法

相關(guān)文章

AI 安全在阿里業(yè)務(wù)中的實(shí)踐，你了解嗎？

發(fā)表評(píng)論

0條評(píng)論

wfc_666

男|高級(jí)講師

TA的文章

域名如何綁定虛擬主機(jī)-如何進(jìn)行域名與虛擬主機(jī)綁定？

幫你理清React的生命周期

最簡(jiǎn)單的css reset

js設(shè)計(jì)模式 --- 模版設(shè)計(jì)模式

邏輯運(yùn)算符的使用

React-代碼復(fù)用(mixin.hoc.render props)

http協(xié)商緩存VS強(qiáng)緩存

[ JavaScript ] 數(shù)據(jù)結(jié)構(gòu)與算法 —— 鏈表

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

深度學(xué)習(xí)時(shí)代的目標(biāo)檢測(cè)算法

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！