Faster R-CNN理解

Lorry_Lu 發(fā)布于2019-07-30 15:24 / 1769人閱讀

摘要：為了不重新構建后續(xù)的網(wǎng)絡也沒必要重新構建最后的網(wǎng)絡，共享卷積層是最好的選擇。

一.簡介

在R-CNN中的roi都是獨自傳入到經(jīng)過與訓練的CNN的分類器和box-regression中去造成了對應每個roi都要經(jīng)過獨自的卷積操作十分耗時，F(xiàn)ast-RCNN解決了沒有共享卷積層的問題，但是他們共同使用的selective search的邊框生成方法過于復雜，成為了計算時間的一個瓶頸，因為Fast-RCNN在確定ROI后可以在GPU上運行，但是selective rearch是不可以的，它只能在cpu上運行，因此這大大制約了系統(tǒng)的時間提升，那么作者提出將roi的選擇也置于GPU上就可以大大加快Fast-Rcnn的預測。因此作者又提出了Faster-RCNN使用RPN的邊框生成算法而徹底的拋棄了selective的算法。
因此在這篇文章中作者提出了在特征圖上對ROI進行選擇，這樣就可以使用GPU和共享fast-Rcnn的主要結構，在Fast-RCNN的最后一層特征圖上我們構造一個RPN,通過添加一個額外的用來同時進行物體識別和邊框回歸的卷積層，因此這是一個全連接網(wǎng)絡，因為我們需要進行邊框的回歸就必須輸出四個偏移量，外加判斷是否為背景的邊框識別，這都是依靠全連接層的將為操作才能實現(xiàn)的。
同時為了統(tǒng)一Fast-Rcnn和RPN作者提出了一個訓練方案，使用fine-tuning在訓練區(qū)域判斷任務和已確定區(qū)域的Fast-RCNN中進行交替迭代，這個方法的收斂效果很好，并且產(chǎn)生了卷積層共享的統(tǒng)一結構，置于RPN為何要和Fast-Rcnn要在卷積層保持結構的不變性，主要的原因在于這幅圖

在實現(xiàn)的時候，proposals的生成網(wǎng)絡需要從最后的卷積層中提取一個256d的特征來確定原始的ROIs同時判斷值是否為背景只有在確定了這兩項后才能送入到Fast-Rcnn中進行boxing-regression和判斷物體的種類。為了不重新構建后續(xù)的網(wǎng)絡也沒必要重新構建最后的網(wǎng)絡，共享卷積層是最好的選擇。

二.相關工作

1.proposals生成
2物體檢測的深度網(wǎng)絡
在R-Cnn中我端到端的對物體進行分類來判斷它屬于物體的哪一類或者背景，同時對于每個類都會生成所對應的邊框回歸的參數(shù)，在判斷好哪一類后就可以選擇對應的邊框回歸參數(shù)！R-CNN僅僅相當于一種分類器，他的準確率極大的取決于他的邊框區(qū)域生成模型，在 OverFeat 方法中，一個全連接層被訓練來預測邊框的坐標，注意是坐標不是回歸量，然后被送到一層用來檢測類確定的物體的回歸。在 MultiBoxs方法中，該連接層在確定原始坐標后，它產(chǎn)生的是多種類不確定的邊框回歸，也就是說這兩個方法中，第一種是在確定了類別后使用特定類的參數(shù)來進行邊框回歸的，但是第二種是將邊框回歸和物體分類獨立起來了，需要產(chǎn)生更多的參數(shù)，在作者的模型中采用的是第一種方法

三.Faster-Rcnn

Faster-Rcnn的結構如上，由兩個部分組成，一個是深度全卷積網(wǎng)絡來產(chǎn)生proposals信息，第二個是使用proposals的Fast-Rcnn detector，RPN來告訴Fast-Rcnn需要看那個區(qū)域

1.Region Proposal Networks(RPN)

RPN網(wǎng)絡將一整幅圖片（大小無所謂）作為輸入，輸出一些矩形框，且每一個都有非背景得分，為了產(chǎn)生位置區(qū)域，我們在輸出特征圖的最后一層使用n*n的子框從最后一層的卷積特征圖上提取特征，之后將特征隱射到256d的區(qū)域中（我的理解就好在是顏色的三基色一樣，通過映射，就可以判斷這是背景與否），然后將這256d的數(shù)據(jù)送入的兩個全連層中分別用來判斷這是否為背景的（cls）與邊框回歸（reg）在本文中我們設置n=3，因為接收域太大了過程如下

2.Anchors

在窗口滑動的過程中，我們同時預測了多個區(qū)域 proposals，對于每個邊框最大可能的形狀有k種，因此CLS有2k個輸出（即該形狀的參考邊框是否是背景），reg有4k個輸出（及對該邊框如何進行回歸），同一個location的k種proposals我們稱之為anchor，而它可以通過中心點已經(jīng)縮放度和長寬比來定義，我們通常使用3種縮放比例和3種長寬比來默認初始化一個anchor，那么整個特征圖就有MHK個anchor了

3.Translation-Invariant Anchors

如果一個物體被翻轉了，那么我們的proposal也應該能夠翻轉并且使用相同的函數(shù)可以預測它，這樣翻轉不變性在我們的anchor中可以得到保障對比之下MultiBox方法使用k均值算法來產(chǎn)生800，并不具備翻轉不變性，也就是說在一個objection在翻轉后我們的方法在相同的參數(shù)下都能準確的預測到它的proposal，這就是那4k數(shù)量的作用了，如果是在確定了使用某個類型的anchor就會損失這樣的性質。同時也減少了我們的輸出的數(shù)量也就導致了參數(shù)的減少。

4.Multi-Scale Anchors as Regression References

對于不同大小的圖片輸入情況，傳統(tǒng)的做法有兩種
1.對圖像進行多尺度的縮放后獨自計算各自的特征圖，但是這太耗時間了
2.使用不同的大小的bounding-boxing來對objection進行判別，而所謂的不同大小就是金字塔型的

我們的anchors的方法就參考了金字塔濾波，為什么要這么說尼？因為我們同一個特征圖區(qū)域對應9種proposals，很明顯就是金字塔濾波。正是這種類似于金字塔濾波的設計，我們能夠在沒有添加其他損失項的情況下解決不同大小的目標問題！

5.Loss Function

在訓練RPNs的時候我們對每個anchor指定了一個二值標簽，我們對以下兩種anchor判定為正的
1.與 ground-truth box有著最高的iou的那些anchor
2.iou高于0.7的那些anchor

那么我們的損失函數(shù)如上，其中i是mini-batch中第i個索引pi是i個anchor為物體的概率 p i?為正標簽（1）如果該anchor滿足上面的條件1，2，后面一項如Fast-Rcnn的定義相同

2.Training RPNs

RPN可以通過反向傳播或者SGD來進行訓練每個mini-batch都來源于一幅圖且包含了多個正的和負的案例anchors,優(yōu)化這樣的loss是可能的，但是這回會出現(xiàn)一個問題，會趨向于將所有的anchors都訓練為負樣本，因此我們選擇從一幅圖中選取出256幅anchors其中正負樣本的比例是1：1，如果一幅圖中正樣本的數(shù)量少于128，就使用負樣本補上

1.Sharing Features for RPN and Fast R-CNN

到現(xiàn)在為止我們已經(jīng)說明了RPN是產(chǎn)生區(qū)域proposals的，當時還未說明如何使用CNN進行識別，對于其中的目標識別我們采用R-CNN，并且我們使用共享卷積層的由RPN和F-Rcnn組成的聯(lián)合結構，由于RPN和F-RCNN分開訓練會產(chǎn)生不一樣的卷積層參數(shù)，因此需要一項技術來讓這兩個網(wǎng)絡共享卷積層，而不是獨立的訓練兩個分離的網(wǎng)絡，在這里我們有三種訓練方法：
1.交替訓練
我們首先訓練RPN，然后使用這些proposals來訓練F-RCNN ，之后再使用參數(shù)初始化RPN，如此迭代
2.近似聯(lián)合訓練

在SGD的過程中，在訓練的時候先前向傳播，產(chǎn)生proposals后就認為proposals是固定的，預訓練好的，接著訓練FRCNN，損失函數(shù)是他們共同的損失函數(shù)，這種方法同時迭代兩個網(wǎng)絡的參數(shù)，作者認為效果不是很好

四：總結

faster rcnn 在fast rcnn 的基礎上消除了ss的過程，縮短了時間，具體的解釋在后續(xù)的代碼部分解釋

文章版權歸作者所有，未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://systransis.cn/yun/41229.html

CNN 在圖像分割中的簡史：從 R-CNN 到 Mask R-CNN

摘要：這個像素級別的圖像分割問題被等科學家解決，這個框架被稱為。由于圖像分割需要做到像素級，這與邊框分割不同，所以必然導致不準確。作者：chen_h微信號 & QQ：862251340微信公眾號：coderpai簡書地址：https://www.jianshu.com/p/867... 自從?Alex Krizhevsky, Geoff Hinton, and Ilya Sutskeve...

AJie 2019-07-30 15:17 評論0 收藏0
用于圖像分割的卷積神經(jīng)網(wǎng)絡：從R-CNN到Mark R-CNN

摘要：自從和在年贏得了的冠軍，卷積神經(jīng)網(wǎng)絡就成為了分割圖像的黃金準則。事實上，從那時起，卷積神經(jīng)網(wǎng)絡不斷獲得完善，并已在挑戰(zhàn)上超越人類。現(xiàn)在，卷積神經(jīng)網(wǎng)絡在的表現(xiàn)已超越人類。卷積神經(jīng)網(wǎng)絡（CNN）的作用遠不止分類那么簡單！在本文中，我們將看到卷積神經(jīng)網(wǎng)絡（CNN）如何在圖像實例分割任務中提升其結果。自從 Alex Krizhevsky、Geoff Hinton 和 Ilya Sutskever ...

daydream 2019-04-25 18:13 評論0 收藏0
像玩樂高一樣拆解Faster R-CNN：詳解目標檢測的實現(xiàn)過程

摘要：這一切始于年的一篇論文，其使用了稱為的算法用來提取感興趣候選區(qū)域，并用一個標準的卷積神經(jīng)網(wǎng)絡去分類和調整這些區(qū)域。本文詳細解釋了 Faster R-CNN 的網(wǎng)絡架構和工作流，一步步帶領讀者理解目標檢測的工作原理，作者本人也提供了 Luminoth 實現(xiàn)，供大家參考。Luminoth 實現(xiàn)：https://github.com/tryolabs/luminoth/tree/master/l...

taoszu 2019-04-25 18:25 評論0 收藏0
斯坦福：「目標檢測」深度學習全面指南

摘要：然而，幸運的是，目前更為成功的目標檢測方法是圖像分類模型的擴展。幾個月前，發(fā)布了一個用于的新的目標檢測。隨著自動駕駛汽車、智能視頻監(jiān)控、人臉檢測和各種人員計數(shù)應用的興起，快速和準確的目標檢測系統(tǒng)也應運而生。這些系統(tǒng)不僅能夠對圖像中的每個目標進行識別和分類，而且通過在其周圍畫出適當?shù)倪吔鐏韺ζ溥M行局部化（localizing）。這使得目標檢測相較于傳統(tǒng)的計算機視覺前身——圖像分類來說更加困難...

Harpsichord1207 2019-04-25 18:19 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

Lorry_Lu

男|高級講師

我要關注我要私信

TA的文章

【黑五】DediPath：$2.27/月/1GB內(nèi)存/10GB SSD空間/2TB流量/1Gbps端

閱讀 3916·2021-11-24 11:14
怎么用106短信平臺來發(fā)送營銷短信？手把手教你輕松掌握！

閱讀 3367·2021-11-22 13:53
計算機畢業(yè)設計springboot校園表白墻小程序管理系統(tǒng)【最新版】

閱讀 3944·2021-11-11 16:54
UCloud：快杰云服務器(烏蘭察布)低至首年37元起

閱讀 1660·2021-10-13 09:49
C基礎講義2018修訂版（黑馬程序員）

閱讀 1261·2021-10-08 10:05
網(wǎng)址的主機名是什么-網(wǎng)址的主機名是什么？

閱讀 3433·2021-09-22 15:57
hivalidity：印度VPS（孟買、諾伊達）/美國VPS/德國VPS，$5/月，1Gbps帶寬

閱讀 1788·2021-08-16 11:01
前端基礎入門二（CSS）

閱讀 1003·2019-08-30 15:55

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Faster R-CNN理解

相關文章

CNN 在圖像分割中的簡史：從 R-CNN 到 Mask R-CNN

用于圖像分割的卷積神經(jīng)網(wǎng)絡：從R-CNN到Mark R-CNN

**像玩樂高一樣拆解Faster R-CNN：詳解目標檢測的實現(xiàn)過程**

斯坦福：「目標檢測」深度學習全面指南

發(fā)表評論

0條評論

Lorry_Lu

男|高級講師

TA的文章

【黑五】DediPath：$2.27/月/1GB內(nèi)存/10GB SSD空間/2TB流量/1Gbps端

怎么用106短信平臺來發(fā)送營銷短信？手把手教你輕松掌握！

計算機畢業(yè)設計springboot校園表白墻小程序管理系統(tǒng)【最新版】

UCloud：快杰云服務器(烏蘭察布)低至首年37元起

C基礎講義2018修訂版（黑馬程序員）

網(wǎng)址的主機名是什么-網(wǎng)址的主機名是什么？

hivalidity：印度VPS（孟買、諾伊達）/美國VPS/德國VPS，$5/月，1Gbps帶寬

前端基礎入門二（CSS）

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Faster R-CNN理解

相關文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！