摘要:是商湯科技發(fā)表于的一篇目標(biāo)檢測的論文,對架構(gòu)的目標(biāo)坐標(biāo)回歸部分進行了替換,取得了更加較精確的定位精度,是最近非常值得一讀的論文。一作者信息該文所有作者均來自商湯科技該文直取網(wǎng)格修飾,意即將目標(biāo)檢測中位置定位轉(zhuǎn)化為目標(biāo)區(qū)域網(wǎng)格點的定位。
Grid R-CNN是商湯科技發(fā)表于arXiv的一篇目標(biāo)檢測的論文,對Faster R-CNN架構(gòu)的目標(biāo)坐標(biāo)回歸部分進行了替換,取得了更加較精確的定位精度,是最近非常值得一讀的論文。
今天就跟大家一起來細品此文妙處。
一、作者信息
該文所有作者均來自商湯科技:
該文直取Grid(網(wǎng)格)修飾R-CNN,意即將目標(biāo)檢測中位置定位轉(zhuǎn)化為目標(biāo)區(qū)域網(wǎng)格點的定位。
二、算法思想
如下圖所示:
在目前的R-CNN目標(biāo)檢測算法中,目標(biāo)的2個點(比如左上和右下)就能表征其位置,將目標(biāo)的定位看為回歸問題,即將ROI特征flatten成向量,后接幾個全連接層回歸目標(biāo)的坐標(biāo)偏移量和寬高。
作者認(rèn)為,這種處理方式?jīng)]能很好的利用特征的空間信息。
作者希望利用全卷積網(wǎng)絡(luò)的較精確定位能力計算目標(biāo)位置,將2個目標(biāo)點的回歸問題,轉(zhuǎn)化為目標(biāo)區(qū)域網(wǎng)格點(Grid Points)的定位問題。目標(biāo)區(qū)域的網(wǎng)格點位置是全卷積網(wǎng)絡(luò)的監(jiān)督信息,因為是直接將目標(biāo)區(qū)域等分,是可以直接計算的。網(wǎng)絡(luò)推斷時,計算heatmap的極值,即為求得的網(wǎng)格點(Grid Points)。
上圖展示了使用3*3網(wǎng)格點的情況。
三、算法流程
作者改造的是Faster R-CNN的目標(biāo)定位部分,其算法流程如下:
前半部分與Faster R-CNN相同,在得到目標(biāo)候選區(qū)域和ROI特征后,分類部分進行目標(biāo)分類,而定位部分接全卷積網(wǎng)絡(luò),其監(jiān)督信息來自根據(jù)目標(biāo)位置計算得到的網(wǎng)格監(jiān)督信息。
流程圖中作者特別標(biāo)出了特征融合模塊(feature fusion module),其意在使用網(wǎng)格中相鄰網(wǎng)格點的位置相關(guān)性,融合特征使得定位更加較精確。
以下針對其中關(guān)鍵步驟進行詳細說明。
3.1 網(wǎng)格引導(dǎo)定位
將目標(biāo)區(qū)域劃為網(wǎng)格,目標(biāo)的定位即轉(zhuǎn)化為網(wǎng)格點的定位。
訓(xùn)練時,ROI特征(14*14大?。┩ㄟ^8個3*3空洞卷積,再通過兩個反卷積把尺寸擴大(56*56),再通過一個卷積生成與網(wǎng)格點相關(guān)的 heatmaps(9 個點就是 9 張圖,后文實驗也使用了4個點的情況)。監(jiān)督信息是每一個點所處位置的交叉十字形狀的5個點的位置。最后再接sigmoid函數(shù),在heapmaps上得到概率圖。
推斷時,將heapmaps極值的位置映射回原圖,即得到了網(wǎng)格點的位置。
讀到這里,讀者可能會有一個疑問,即計算得到的網(wǎng)格點組成的形狀是方方正正的,而Heapmaps極值得到的網(wǎng)格點未必組合在一起是方方正正的,不好確定目標(biāo)區(qū)域。
作者的方法是對原本應(yīng)該具有相同x或者y坐標(biāo)的網(wǎng)格點的坐標(biāo)進行平均。
到此,即得到了目標(biāo)位置。
3.2 網(wǎng)格點特征融合
很顯然,網(wǎng)格點之間具有內(nèi)在的聯(lián)系,相鄰網(wǎng)格點之間可以相互校正位置提高定位精度。
為此,作者設(shè)計了網(wǎng)格點特征融合的機制。
首先,在計算網(wǎng)格點heapmaps時,每個網(wǎng)格點使用不同的濾波器組,防止它們之間共用特征以至相互影響。
然后在每個網(wǎng)格點的Heapmap出來后,將相鄰網(wǎng)格點的Heapmaps經(jīng)過卷積濾波與其相加,形成新的heapmap。
作者將距離特定網(wǎng)格點最近的相鄰網(wǎng)格點(1個單位網(wǎng)格長度)組成的網(wǎng)格點集合的特征融合稱為一階特征融合,次近的相鄰網(wǎng)格點(2個單位網(wǎng)格長度)組成的網(wǎng)格點集合的特征融合稱為二階特征融合。下圖中(a)(b)分別展示了此融合過程。
3.3 擴展區(qū)域映射
這一步主要是為了應(yīng)對在實際使用中,RPN 給出的 proposal并不總是將完整物體包含在內(nèi)。如下圖:
圖中白色的實線框表示 RPN 給出的候選框,它沒有完全包含所有的網(wǎng)格點。
而作者指出,簡單的擴大候選框的大小,不會帶來提升,甚至降低對小物體檢測的精度(后面有實驗驗證)。
作者認(rèn)為heatmap的感受野其實是很大的,并不限于候選框內(nèi),所以就干脆直接將heatmap對應(yīng)的區(qū)域看成候選框覆蓋的區(qū)域兩倍大(如圖中虛線圍起來的區(qū)域)。
這么做的好處是,只需簡單修改網(wǎng)格引導(dǎo)定位中的位置映射公式。即
四、實驗結(jié)果
作者首先研究了算法中網(wǎng)格點數(shù)對精度的影響。如下圖:
相比回歸的方法,Grid R-CNN精度更高,而且隨著點數(shù)增加精度也在提高。
比較AP0.5和AP0.75發(fā)現(xiàn),精度提升主要來自高IoU閾值的情況。
其次,作者實驗了網(wǎng)格點特征融合策略對性能的影響。如下圖:
可見該文提出的特征融合策略是有效的,而且二階特征融合更加有效。
然后,作者實驗了擴展區(qū)域映射對精度的影響。如下圖:
可見,直接擴大候選框區(qū)域的方法傷害了精度,而本文提出的擴展區(qū)域映射(extended region mapping)的方法則使精度有較大的提高(1.2個AP)。
作者又在主流的目標(biāo)檢測數(shù)據(jù)庫上與state-of-the-art進行了比較。
下圖展示了在Pascal VOC數(shù)據(jù)集上,相比R-FCN、FPN,使用相同骨干網(wǎng)的情況下,精度取得了極大的提升!
在COCO minival數(shù)據(jù)集上的實驗,同樣取得了較大幅度精度提升。
在COCO test-dev數(shù)據(jù)集上也實現(xiàn)了一騎絕塵!如下圖:
與Faster R-CNN相比,發(fā)現(xiàn)精度提升主要來自高IoU閾值的部分,如下圖所示。
所以作者猜測,Grid定位分支也許輕微影響了分類的分支。
下圖是一些目標(biāo)的定位示例:
作者最后列出了Grid R-CNN對各目標(biāo)類別的精度增益,發(fā)現(xiàn)那些矩形和長方形目標(biāo)(例如鍵盤,筆記本電腦,叉子,火車和冰箱)往往獲得更大的精度增益,而具有圓形性質(zhì)的物體(例如運動球,飛盤,碗,鐘和杯子)則性能下降或獲得較小的增益。
五、總結(jié)
該文反思了目標(biāo)檢測中的定位問題,提出以覆蓋目標(biāo)的網(wǎng)格點作為監(jiān)督信息使用全卷積網(wǎng)絡(luò)定位網(wǎng)格點的方法,大幅提高了目標(biāo)定位精度。值得研究目標(biāo)檢測的朋友學(xué)習(xí)~
文中沒有提及推斷速度、代碼是否會開源,希望有進一步的消息出來。
目標(biāo)定位的方法還有什么可挖掘的嗎?
你認(rèn)為Grid R-CNN會成為Faster R-CNN那樣的傳世經(jīng)典嗎?
論文網(wǎng)址:
https://arxiv.org/abs/1811.12030
聲明:文章收集于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系小編及時處理,謝謝!
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4831.html
摘要:近日,開源了和的實現(xiàn)基準(zhǔn)。是商湯和港中文近日聯(lián)合開源的基于的開源目標(biāo)檢測工具包。你也可以配置你自己的到數(shù)據(jù)集的路徑。 近日,F(xiàn)acebook AI Research 開源了 Faster R-CNN 和 Mask R-CNN 的 PyTorch 1.0 實現(xiàn)基準(zhǔn):MaskRCNN-Benchmark。相比 Detectron 和 mmdetection,MaskRCNN-Benchmark ...
摘要:目前目標(biāo)檢測領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類的目標(biāo)檢測算法的目標(biāo)檢測算法。原來多數(shù)的目標(biāo)檢測算法都是只采用深層特征做預(yù)測,低層的特征語義信息比較少,但是目標(biāo)位置準(zhǔn)確高層的特征語義信息比較豐富,但是目標(biāo)位置比較粗略。 目前目標(biāo)檢測領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類:two stage的目標(biāo)檢測算法;one stage的目標(biāo)檢測算法。前者是先由算法生成一系列作為樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡(luò)進行樣本...
閱讀 2689·2023-04-25 20:28
閱讀 1875·2021-11-22 09:34
閱讀 3705·2021-09-26 10:20
閱讀 1862·2021-09-22 16:05
閱讀 3099·2021-09-09 09:32
閱讀 2532·2021-08-31 09:40
閱讀 2116·2019-08-30 13:56
閱讀 3330·2019-08-29 17:01