成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

何愷明團(tuán)隊(duì)推出Mask^X R-CNN,將實(shí)例分割擴(kuò)展到3000類

MockingBird / 1144人閱讀

摘要:從標(biāo)題上可以看出,這是一篇在實(shí)例分割問題中研究擴(kuò)展分割物體類別數(shù)量的論文。試驗(yàn)結(jié)果表明,這個(gè)擴(kuò)展可以改進(jìn)基準(zhǔn)和權(quán)重傳遞方法。

今年10月,何愷明的論文“Mask R-CNN”摘下ICCV 2017的較佳論文獎(jiǎng)(Best Paper Award),如今,何愷明團(tuán)隊(duì)在Mask R-CNN的基礎(chǔ)上更近一步,推出了(以下稱Mask^X R-CNN)。

這篇論文的第一作者是伯克利大學(xué)的在讀博士生胡戎航(清華大學(xué)畢業(yè)),標(biāo)題非常霸氣,叫是“Learning to Segment Every Thing”。從標(biāo)題上可以看出,這是一篇在實(shí)例分割問題(instance segmentation)中研究擴(kuò)展分割物體類別數(shù)量的論文。

由于現(xiàn)有的目標(biāo)實(shí)例分割(object instance segmentation)方法要求所有訓(xùn)練實(shí)例都必須標(biāo)記有分割掩碼(segmentation mask),使得注釋新類別的成本十分昂貴,而且還將實(shí)例分割模型限制在約100個(gè)詳細(xì)注釋的類別。本論文提出了一種全新的偏監(jiān)督(partially supervised)訓(xùn)練方式以及一個(gè)新的權(quán)重傳遞函數(shù)(weight transfer function),用大量的類別(所有類別都標(biāo)有邊界框注釋(box annotations),但只有一小部分類別標(biāo)有掩碼注釋)訓(xùn)練實(shí)例分割模型。

論文作者表示,他們成功使用Visual Genome數(shù)據(jù)庫中的邊界框注釋以及COCO數(shù)據(jù)庫中80個(gè)類別的掩碼注釋,訓(xùn)練Mask R-CNN檢測(cè)并分割3000個(gè)視覺概念。此外,該論文還首次探究了如何讓實(shí)例分割模型可以全面地理解視覺世界。

以下是論文簡介,enjoy!

介紹

圖1. 我們通過偏監(jiān)督方法來探索如何訓(xùn)練實(shí)例分割模型:在訓(xùn)練時(shí),一個(gè)類的子集(綠色框)具有實(shí)例掩碼的注釋; 剩余的類(紅色框)只有邊界框注釋。該圖顯示了我們的模型在Visual Genome數(shù)據(jù)集上訓(xùn)練了3000個(gè)類后的輸出,這個(gè)過程中僅使用了COCO數(shù)據(jù)集中80個(gè)類別的掩碼注釋。

目標(biāo)檢測(cè)器已經(jīng)變得非常準(zhǔn)確了,并擁有了很重要的新功能。其中最令人興奮的功能是能夠?yàn)槊總€(gè)檢測(cè)到的對(duì)象預(yù)測(cè)前景分割掩碼,這個(gè)任務(wù)我們稱之為實(shí)例分割。在實(shí)際應(yīng)用中,傳統(tǒng)的實(shí)例分割系統(tǒng)往往只能對(duì)包含約100個(gè)對(duì)象類別的數(shù)據(jù)集起作用,而這只是大千世界中的滄海一粟。

造成這種現(xiàn)象的一個(gè)主要原因是,現(xiàn)有最領(lǐng)先的實(shí)例分割算法都需要強(qiáng)監(jiān)督學(xué)習(xí),而這樣的監(jiān)督學(xué)習(xí)有很大的限制,并且采集新類別圖片的代價(jià)也是十分昂貴的。相比之下,帶邊界框注釋的圖片則會(huì)更豐富和也更便宜。這就引出了一個(gè)問題:在不是所有類別都標(biāo)有完整實(shí)例分割注釋的前提下,是否有可能訓(xùn)練出高質(zhì)量的實(shí)例分割模型為此,本文介紹了一種新的偏監(jiān)督實(shí)例分割任務(wù),并提出了一種新的遷移學(xué)習(xí)的方法來完成它。

我們制定的基于偏監(jiān)督學(xué)習(xí)的實(shí)例分割任務(wù)如下:

(1)給定一組感興趣的類別和一個(gè)有實(shí)例掩碼注釋的小的子集,而其他類別只有邊界框注釋;?

(2)實(shí)例分割算法可以利用這個(gè)數(shù)據(jù)來擬合一個(gè)模型,該模型可以分割所感興趣的集合中的所有對(duì)象類別的實(shí)例。由于訓(xùn)練數(shù)據(jù)是完整注釋數(shù)據(jù)(帶掩碼的示例)和弱注釋數(shù)據(jù)(僅帶框的示例)的混合,因此我們將該任務(wù)稱為偏監(jiān)督任務(wù)。

本文所提出的偏監(jiān)督學(xué)習(xí)樣例流程的主要好處是它允許我們通過利用兩種類型的現(xiàn)有數(shù)據(jù)集來構(gòu)建一個(gè)大規(guī)模的實(shí)例分割模型:那些在大量的類上使用邊界框注釋的數(shù)據(jù)集,比如Visual Genome, 以及那些在少數(shù)類別上使用實(shí)例掩碼注釋的,例如COCO數(shù)據(jù)集。正如我們接下來將要展示的那樣,這使得我們能夠?qū)⑤^先進(jìn)的實(shí)例分割方法擴(kuò)展到數(shù)千個(gè)類別,這對(duì)于在現(xiàn)實(shí)世界中部署實(shí)例分割是非常重要的。

為了解決偏監(jiān)督的實(shí)例分割問題,我們提出了一種基于Mask R-CNN的新型遷移學(xué)習(xí)的方法。 Mask R-CNN非常適合我們的任務(wù),因?yàn)樗鼘?shí)例分割問題分解為了目標(biāo)的邊界框檢測(cè)和掩碼預(yù)測(cè)兩個(gè)子任務(wù)。這些子任務(wù)是由專門的網(wǎng)絡(luò)“頭部(heads)”共同訓(xùn)練的。我們的方法背后的直覺是,一旦訓(xùn)練完成了,邊界框頭部(the bounding box head)參數(shù)編碼嵌入到每個(gè)對(duì)象類別,使該類別的視覺信息轉(zhuǎn)移到偏監(jiān)督掩碼頭部(the partially supervised mask head)參數(shù)上。

為了讓這個(gè)直覺具象化,我們?cè)O(shè)計(jì)了一個(gè)參數(shù)化的權(quán)重傳遞函數(shù),該函數(shù)被訓(xùn)練成根據(jù)圖片類別的邊界框檢測(cè)參數(shù)來預(yù)測(cè)類別的實(shí)例分割參數(shù)。權(quán)重傳遞函數(shù)可以在Mask R-CNN中使用帶有掩碼注釋的類作為監(jiān)督學(xué)習(xí)的數(shù)據(jù)來進(jìn)行端到端的訓(xùn)練。在推理時(shí),權(quán)重傳遞函數(shù)用于預(yù)測(cè)每個(gè)類別的實(shí)例分割參數(shù),從而使模型能夠分割所有目標(biāo)的類別,包括在訓(xùn)練時(shí)沒有掩碼注釋的目標(biāo)類別。

我們?cè)趦煞N不同的設(shè)置環(huán)境中評(píng)估了我們的方法。首先,為了在數(shù)據(jù)集上建立包含高質(zhì)量的注釋和評(píng)估指標(biāo)的定量的結(jié)果,我們使用了COCO數(shù)據(jù)集來模擬偏監(jiān)督的實(shí)例分割任務(wù)。具體地說,我們將COCO數(shù)據(jù)集所有的類別劃分為帶有掩碼注釋的子集和一個(gè)只提供給實(shí)例分割系統(tǒng)邊界框注釋的子集。由于COCO數(shù)據(jù)集僅涉及少量(80類)的語義分離很好的類,因此定量評(píng)估的結(jié)果是準(zhǔn)確可靠的。實(shí)驗(yàn)結(jié)果表明,我們的方法得到了比該任務(wù)基準(zhǔn)線高很多的結(jié)果,在沒有采用訓(xùn)練用的掩碼的情況下,掩碼的AP相對(duì)增幅高達(dá)40%。

在第二種設(shè)置中,我們使用包含3000個(gè)類別的Visual Genome(VG)數(shù)據(jù)集進(jìn)行了一次大規(guī)模的實(shí)例分割模型訓(xùn)練。VG數(shù)據(jù)集包含大量目標(biāo)類別的邊界框注釋,但是由于許多類別在語義上重疊(例如,近義詞)并且注釋并不詳盡,使得模型的較精確度和召回率難以衡量。而且,VG數(shù)據(jù)集不是用實(shí)例掩碼來標(biāo)注的。作為替代,我們采用VG數(shù)據(jù)集來提供大規(guī)模實(shí)例分割模型的定性輸出。我們模型的輸出如圖1和5所示:

學(xué)習(xí)分割一切物體

假設(shè)集合C為一組對(duì)象類別(例如‘things’),我們要用這些類別來訓(xùn)練一個(gè)實(shí)例分割模型。大多數(shù)現(xiàn)有方法假設(shè)C中所有的訓(xùn)練實(shí)例都標(biāo)有掩碼注釋。我們放寬了這個(gè)要求,只假設(shè)C=A∪B,也就是說:集合A中的類別實(shí)例都標(biāo)有掩碼注釋,集合B中的類別實(shí)例只有邊界框注釋。由于集合B中的類別只帶有關(guān)于目標(biāo)任務(wù)(實(shí)例分割)的弱標(biāo)簽,我們將使用組合強(qiáng)標(biāo)簽(strong labels)和弱標(biāo)簽(weak labels)的類別來訓(xùn)練模型的問題稱為偏監(jiān)督學(xué)習(xí)問題。

注意:我們可以輕易地將實(shí)例的掩碼注釋轉(zhuǎn)換為邊界框注釋,因此我們假設(shè)A中的類別也帶有邊界框注釋。由于Mask RCNN這樣的實(shí)例分割模型都帶有一個(gè)邊界框檢測(cè)器和一個(gè)掩碼預(yù)測(cè)器,我們提出的

利用權(quán)重傳遞函數(shù)預(yù)測(cè)掩碼

我們的方法建立在Mask R-CNN上,因?yàn)镸ask R-CNN實(shí)例分割模型不僅結(jié)構(gòu)簡單,而且可以實(shí)現(xiàn)非常優(yōu)秀的結(jié)果。簡單來說,我們可以將Mask R-CNN看作為添加有一個(gè)掩碼預(yù)測(cè)分支(小型全卷積網(wǎng)絡(luò))的Faster R-CNN邊界框檢測(cè)模型。在預(yù)測(cè)階段,模型用掩碼分支處理每個(gè)檢測(cè)對(duì)象,為每個(gè)對(duì)象預(yù)測(cè)一個(gè)實(shí)例級(jí)別的前景分割掩碼。在訓(xùn)練階段,并行訓(xùn)練掩碼分支和Faster R-CNN中的標(biāo)準(zhǔn)邊界框檢測(cè)器。

在Mask R-CNN中,邊界框分支的最后一層以及掩碼分支的最后一層均包含對(duì)每個(gè)類別執(zhí)行邊界框分類和實(shí)例掩碼預(yù)測(cè)任務(wù)時(shí)所用的類別參數(shù)。我們選擇的方法是:使用一個(gè)通用的權(quán)重傳遞函數(shù),根據(jù)某一類別的邊界框參數(shù)預(yù)測(cè)它的掩碼參數(shù),這個(gè)函數(shù)可以作為模型的組部分與模型一起進(jìn)行訓(xùn)練;而不是分別學(xué)習(xí)某一類別的邊界框參數(shù)和掩碼參數(shù)。

?

基準(zhǔn):類別不可知的掩碼預(yù)測(cè)

DeepMask證明了:訓(xùn)練深度學(xué)習(xí)模型執(zhí)行類別不可知掩碼預(yù)測(cè)任務(wù)(不考慮類別而預(yù)測(cè)目標(biāo)掩碼)是不可能實(shí)現(xiàn)的。對(duì)于掩碼質(zhì)量稍微損失的Mask R-CNN而言也是這樣。在其他試驗(yàn)中,如果類別不可知模型經(jīng)過訓(xùn)練后可以預(yù)測(cè)COCO類別中一個(gè)類別子集的掩碼,那么這些預(yù)測(cè)值在預(yù)測(cè)階段(inference time)就可以泛化到其他60個(gè)COCO類別上。依據(jù)這些結(jié)論,我們用帶有一個(gè)不可知FCN掩碼預(yù)測(cè)器的Mask R-CNN作為基準(zhǔn)。事實(shí)證明,這是一個(gè)非常優(yōu)秀的基準(zhǔn)。接下來,我們提出了一個(gè)可以用于改進(jìn)該基準(zhǔn)和權(quán)重傳遞函數(shù)的擴(kuò)展。

擴(kuò)展:FCN+MLP 掩碼預(yù)測(cè)器

兩種類型的掩碼檢測(cè)器都可用于Mask RCNN:

(1)FCN預(yù)測(cè)器使用一個(gè)全卷積網(wǎng)絡(luò)預(yù)測(cè)M × M掩碼;

(2)MLP預(yù)測(cè)器使用一個(gè)多層感知器預(yù)測(cè)掩碼,這個(gè)多層感知器是由全連接層構(gòu)成的,類似于DeepMask。在Mask R-CNN中,F(xiàn)CN預(yù)測(cè)器獲得的掩碼平均精度(AP)。但是,這兩種預(yù)測(cè)器可以互補(bǔ)。直觀看來,MLP 掩碼預(yù)測(cè)器可以更好地捕捉物體的“主要特征”,而FCN 掩碼測(cè)器可以更好地捕捉物體的細(xì)節(jié)(例如:物體的邊界)。根據(jù)這一觀察,我們通過將基準(zhǔn)類別不可知FCN預(yù)測(cè)器和權(quán)重傳遞函數(shù)(使用的是一個(gè)FCN預(yù)測(cè)器)與類別不可知MLP 掩碼預(yù)測(cè)器作出的預(yù)測(cè)整合在一起,以此來改進(jìn)前兩者的表現(xiàn)。試驗(yàn)結(jié)果表明,這個(gè)擴(kuò)展可以改進(jìn)基準(zhǔn)和權(quán)重傳遞方法。

當(dāng)對(duì)K個(gè)類別的class-agnostic 和class-specific 掩碼預(yù)測(cè)進(jìn)行整合時(shí),這兩個(gè)預(yù)測(cè)值都被添加到最終的K×M×M輸出中,其中class-agnostic掩碼預(yù)測(cè)值(1×M×M)被分割了K次并添加到每個(gè)類別中。然后,K×M×M 掩碼預(yù)測(cè)值經(jīng)一個(gè)sigmoid單元處理后轉(zhuǎn)化為每個(gè)類別的掩碼概率值,其大小被調(diào)整為實(shí)際的邊界框大小,并作為邊界框最終的實(shí)例掩碼。在訓(xùn)練期間,我們對(duì)K×M×M 掩碼概率應(yīng)用了二元交叉熵?fù)p失函數(shù)。

?

在COCO數(shù)據(jù)集上進(jìn)行試驗(yàn)

(a) Ablation on input to T . ?

(b) Ablation on the structure of T . ?

?(c) Impact of the MLP mask branch.?

(d) Ablation on the training strategy.?

表1. 方法的簡化測(cè)試。(a,b,c)中的結(jié)果基于分階段訓(xùn)練,我們?cè)?d)中研究了端對(duì)端訓(xùn)練的影響。我們還用COCO數(shù)據(jù)集val2017評(píng)估了掩碼的AP值,該數(shù)據(jù)集包含20個(gè)PASCAL VOC類別(voc)和60個(gè)其他類別(非voc)。用強(qiáng)監(jiān)督數(shù)據(jù)集A訓(xùn)練模型得出的結(jié)果用灰色字體表示。

圖3. 每個(gè)點(diǎn)代表我們的方法在COCO數(shù)據(jù)集隨機(jī)劃分的類別集A和類別集B上的表現(xiàn)。我們類別集A的類別數(shù)設(shè)定為20至60,然后繪制出類別集B中類別(無掩碼注釋)的掩碼AP對(duì)比類別集A中每個(gè)類別的掩碼注釋數(shù)的平均值的變化圖。

圖4.類別不可知基準(zhǔn)方法(第一行)與Mask^X R-CNN方法(第二行)的掩碼預(yù)測(cè)對(duì)比。綠色方框代表類別集A中的類別,紅色方框代表類別B中的類別。左側(cè)兩欄為A = {voc},右側(cè)兩欄為A ={ non-voc }。

表2. Mask^X R-CNN的端對(duì)端訓(xùn)練。如表1所示,我們用‘cls+box, 2-layer, LeakyReLU’作為Mask^X R-CNN的實(shí)現(xiàn)結(jié)構(gòu),然后添加了MLP 掩碼分支(‘transfer+MLP’),按照相同的評(píng)估方案進(jìn)行評(píng)估。我們還報(bào)告了AP50 和 AP75(以0.5 和 0.75為IoU臨界值分別估計(jì)出平均準(zhǔn)確度),小型(APS)、中型(APM)的大型(APL)物體的AP(平均準(zhǔn)確度)。在ResNet-50-FPN 和 ResNet-101-FPN 基礎(chǔ)網(wǎng)絡(luò)無掩碼訓(xùn)練數(shù)據(jù)的前提下,使用類別集B中的類別進(jìn)行評(píng)估,得出的結(jié)論是:我們方法的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于基準(zhǔn)。

表2對(duì)比了完整的Mask^X R-CNN的方法。它的表現(xiàn)大幅超越基準(zhǔn)方法的表現(xiàn)(掩碼平均準(zhǔn)確度相對(duì)增加了20%多)。除了ResNet-50-FPN,我們還將ResNet-101 FPN作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行了試驗(yàn),如表2下半部分所示。我們?cè)赗esNet-50-FPN上發(fā)現(xiàn)的趨勢(shì)也出現(xiàn)在 ResNet-101-FPN上,這表明基礎(chǔ)網(wǎng)絡(luò)并不會(huì)影響試驗(yàn)結(jié)果。圖4給出了類別不可知基準(zhǔn)方法和我們的方法的掩碼預(yù)測(cè)示例。

大規(guī)模的實(shí)例分割

到目前為止,我們已經(jīng)實(shí)驗(yàn)過了一個(gè)我們真正目標(biāo)的模擬版本:即用寬闊的視覺理解來訓(xùn)練大規(guī)模的實(shí)例分割模型。我們相信這個(gè)目標(biāo)代表了一個(gè)激動(dòng)人心的視覺識(shí)別研究的新方向,要完成它,可能需要從偏監(jiān)督中學(xué)習(xí)到某種形式。為了實(shí)現(xiàn)這一目標(biāo),我們使用Visual Genome(VG)數(shù)據(jù)集的邊界框和COCO數(shù)據(jù)集的實(shí)例掩碼[22]兩種數(shù)據(jù),用偏監(jiān)督任務(wù)的學(xué)習(xí)方式訓(xùn)練了一個(gè)大規(guī)模的Mask^X R-CNN模型。 VG數(shù)據(jù)集包含了108077張圖像,以及超過7000類的用目標(biāo)邊界框注釋(但不包括掩碼)的同義詞集。

為了訓(xùn)練我們的模型,我們選擇了3000個(gè)最常見的同義詞數(shù)據(jù)集作為我們的數(shù)據(jù)集A 和數(shù)據(jù)集B來實(shí)現(xiàn)實(shí)例分割的任務(wù),該數(shù)據(jù)集AB覆蓋了COCO數(shù)據(jù)集中的所有80個(gè)類別。 由于VG數(shù)據(jù)集圖像與COCO數(shù)據(jù)集重疊較大,因此在用VG數(shù)據(jù)集訓(xùn)練時(shí),我們將所有不在COCO val2017數(shù)據(jù)集中的圖像作為訓(xùn)練集,并將其余的VG圖像作為驗(yàn)證集。 我們將VG數(shù)據(jù)集中所有與COCO數(shù)據(jù)集重疊的80個(gè)類別作為我們的帶掩碼的數(shù)據(jù)集A,VG數(shù)據(jù)集中其余的2920個(gè)類別作為我們的數(shù)據(jù)集B,因?yàn)樗鼈冎挥羞吔缈虻淖⑨尅?/p>

訓(xùn)練。我們使用階段式訓(xùn)練策略來訓(xùn)練我們的大規(guī)模Mask^X R-CNN模型。

具體來說,我們使用ResNet-101-FPN網(wǎng)絡(luò)結(jié)構(gòu)作為我們的骨干網(wǎng)絡(luò),按照4.1節(jié)中所提到的超參數(shù),訓(xùn)練了一個(gè)Faster R-CNN模型來檢測(cè)VG數(shù)據(jù)集中的3000個(gè)類別。 然后,在第二階段,我們用"cls + box,2-layer,LeakyReLU"這幾個(gè)結(jié)構(gòu)構(gòu)造了權(quán)重傳遞函數(shù)T,接著用函數(shù)T和類別未知的MLP掩碼預(yù)測(cè)(即,"transfer + MLP")組成了掩碼頭部(the mask head)。訓(xùn)練掩碼頭部的數(shù)據(jù)集是用包含80個(gè)類別的COCO數(shù)據(jù)集(數(shù)據(jù)集A)的子集,這些子集采用了COCO數(shù)據(jù)集train2017中拆分出來的掩碼注釋。

定性的結(jié)果。掩碼AP(平均較精確度)很難在VG數(shù)據(jù)集上進(jìn)行計(jì)算,因?yàn)樗话四繕?biāo)邊界框的注釋。因此,我們使用我們的權(quán)重傳遞函數(shù)將結(jié)果可視化,以了解模型在A和B一起組成的數(shù)據(jù)集中所有3000個(gè)類別上訓(xùn)練完的性能。圖5顯示了在驗(yàn)證集上一些掩碼預(yù)測(cè)的例子,可以看出,在那些與COCO數(shù)據(jù)集類別不重疊的VG數(shù)據(jù)集類別(紅框中顯示的是數(shù)據(jù)集B)上,我們的模型預(yù)測(cè)了比較合理的掩碼。

這個(gè)可視化的結(jié)果顯示了我們大規(guī)模實(shí)例分割模型的幾個(gè)有趣的特性。首先,它已經(jīng)學(xué)會(huì)了檢測(cè)一些抽象的概念,如陰影和路徑。 這些往往是難以分割的。其次,能夠簡單地從VG數(shù)據(jù)集中獲得前3000個(gè)同義詞,一些概念比“事物(thing)”更像“東西(stuff)”。 例如,該模型對(duì)孤立的樹進(jìn)行了合理的分割,但當(dāng)檢測(cè)到的“樹”更像森林時(shí),該模型往往會(huì)分割失敗。最后,檢測(cè)器在分割整個(gè)物體和部分物體(例如電車的窗戶或冰箱的手柄)時(shí)做的是比較合理的。與在COCO數(shù)據(jù)集80個(gè)類別上訓(xùn)練的檢測(cè)器相比,這些結(jié)果說明了現(xiàn)在訓(xùn)練的實(shí)例分割系統(tǒng)有很好的潛力去識(shí)別和分割數(shù)千個(gè)概念。

圖5. Mask^X R-CNN模型在數(shù)據(jù)集Visual Genome上進(jìn)行3000個(gè)類的掩碼預(yù)測(cè)的示例。 綠色框是與COCO(帶掩碼訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集A)重疊的80個(gè)類,而紅色框是剩余的2920個(gè)不在COCO數(shù)據(jù)集中的類(沒有掩模訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集B)。可以看出,我們的模型在數(shù)據(jù)集B中的許多類上生成了一個(gè)比較合理的掩碼預(yù)測(cè)。

結(jié)論

本文針對(duì)大規(guī)模實(shí)例分割的問題,構(gòu)造了一個(gè)偏監(jiān)督的學(xué)習(xí)樣例流程。其中只有一部分類在訓(xùn)練時(shí)具有實(shí)例掩碼數(shù)據(jù),而其余部分具有邊界框注釋。我們提出了一種新的遷移學(xué)習(xí)的方法,其中是用訓(xùn)練好的權(quán)重轉(zhuǎn)移函數(shù)來預(yù)測(cè):如何根據(jù)學(xué)習(xí)的參數(shù)來檢測(cè)每個(gè)類別的邊界框。在COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,在沒有掩碼訓(xùn)練數(shù)據(jù)的情況下,我們的方法大大提高了掩碼預(yù)測(cè)的泛化能力。通過采用該方法,我們?cè)赩isual Genome數(shù)據(jù)集中建立了超過3000個(gè)類的大規(guī)模實(shí)例分割模型。我們得到的結(jié)果非常鼓舞人心,這足以說明我們開創(chuàng)了了一個(gè)令人興奮的新的大規(guī)模實(shí)例分割的研究方向。研究人員還提到了一個(gè)非常具有挑戰(zhàn)性的問題,在沒有監(jiān)督學(xué)習(xí)的情況下,如何將實(shí)例分割擴(kuò)展到數(shù)千個(gè)類別。應(yīng)該可以有很多方式來改進(jìn)此方法去解決這樣的問題。

論文鏈接:https://arxiv.org/pdf/1711.10370.pdf

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4686.html

相關(guān)文章

  • Facebook愷明等大神最新論文提出非局部神經(jīng)網(wǎng)絡(luò)

    摘要:何愷明和兩位大神最近提出非局部操作為解決視頻處理中時(shí)空域的長距離依賴打開了新的方向。何愷明等人提出新的非局部通用網(wǎng)絡(luò)結(jié)構(gòu),超越。殘差連接是何愷明在他的年較佳論文中提出的。 Facebook何愷明和RGB兩位大神最近提出非局部操作non-local operations為解決視頻處理中時(shí)空域的長距離依賴打開了新的方向。文章采用圖像去噪中常用的非局部平均的思想處理局部特征與全圖特征點(diǎn)的關(guān)系。這種...

    nevermind 評(píng)論0 收藏0
  • 愷明終結(jié)ImageNet預(yù)訓(xùn)練時(shí)代:從0訓(xùn)練模型效果比肩COCO冠軍

    摘要:為了探索多種訓(xùn)練方案,何愷明等人嘗試了在不同的迭代周期降低學(xué)習(xí)率。實(shí)驗(yàn)中,何愷明等人還用預(yù)訓(xùn)練了同樣的模型,再進(jìn)行微調(diào),成績沒有任何提升。何愷明在論文中用來形容這個(gè)結(jié)果。 何愷明,RBG,Piotr Dollár。三位從Mask R-CNN就開始合作的大神搭檔,剛剛再次聯(lián)手,一文終結(jié)了ImageNet預(yù)訓(xùn)練時(shí)代。他們所針對(duì)的是當(dāng)前計(jì)算機(jī)視覺研究中的一種常規(guī)操作:管它什么任務(wù),拿來ImageN...

    freecode 評(píng)論0 收藏0
  • 深度學(xué)習(xí)時(shí)代的目標(biāo)檢測(cè)算法

    摘要:目前目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類的目標(biāo)檢測(cè)算法的目標(biāo)檢測(cè)算法。原來多數(shù)的目標(biāo)檢測(cè)算法都是只采用深層特征做預(yù)測(cè),低層的特征語義信息比較少,但是目標(biāo)位置準(zhǔn)確高層的特征語義信息比較豐富,但是目標(biāo)位置比較粗略。 目前目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類:two stage的目標(biāo)檢測(cè)算法;one stage的目標(biāo)檢測(cè)算法。前者是先由算法生成一系列作為樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本...

    wfc_666 評(píng)論0 收藏0
  • 整合全部頂尖目標(biāo)檢測(cè)算法:FAIR開源Detectron

    摘要:昨天,研究院開源了,業(yè)內(nèi)較佳水平的目標(biāo)檢測(cè)平臺(tái)。項(xiàng)目地址是實(shí)現(xiàn)頂尖目標(biāo)檢測(cè)算法包括的軟件系統(tǒng)。因此基本上已經(jīng)是最目前包含最全與最多目標(biāo)檢測(cè)算法的代碼庫了。 昨天,F(xiàn)acebook AI 研究院(FAIR)開源了 Detectron,業(yè)內(nèi)較佳水平的目標(biāo)檢測(cè)平臺(tái)。據(jù)介紹,該項(xiàng)目自 2016 年 7 月啟動(dòng),構(gòu)建于 Caffe2 之上,目前支持大量機(jī)器學(xué)習(xí)算法,其中包括 Mask R-CNN(何愷...

    劉玉平 評(píng)論0 收藏0
  • Mask R-CNN源代碼終于來了,還有它背后的物體檢測(cè)平臺(tái)

    摘要:現(xiàn)在,官方版開源代碼終于來了。同時(shí)發(fā)布的,是這項(xiàng)研究背后的一個(gè)基礎(chǔ)平臺(tái)。是的物體檢測(cè)平臺(tái),今天宣布開源,它基于,用寫成,這次開放的代碼中就包含了的實(shí)現(xiàn)。說,將平臺(tái)開源出來,是想要加速世界各地實(shí)驗(yàn)室的研究,推動(dòng)物體檢測(cè)的進(jìn)展。 等代碼吧。從Mask R-CNN論文亮相至今的10個(gè)月里,關(guān)于它的討論幾乎都會(huì)以這句話收尾?,F(xiàn)在,官方版開源代碼終于來了。同時(shí)發(fā)布的,是這項(xiàng)研究背后的一個(gè)基礎(chǔ)平臺(tái):De...

    robin 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<