摘要:自從和在年贏得了的冠軍,卷積神經(jīng)網(wǎng)絡(luò)就成為了分割圖像的黃金準(zhǔn)則。事實(shí)上,從那時(shí)起,卷積神經(jīng)網(wǎng)絡(luò)不斷獲得完善,并已在挑戰(zhàn)上超越人類?,F(xiàn)在,卷積神經(jīng)網(wǎng)絡(luò)在的表現(xiàn)已超越人類。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)的作用遠(yuǎn)不止分類那么簡單!在本文中,我們將看到卷積神經(jīng)網(wǎng)絡(luò)(CNN)如何在圖像實(shí)例分割任務(wù)中提升其結(jié)果。
自從 Alex Krizhevsky、Geoff Hinton 和 Ilya Sutskever 在 2012 年贏得了 ImageNet 的冠軍,卷積神經(jīng)網(wǎng)絡(luò)就成為了分割圖像的黃金準(zhǔn)則。事實(shí)上,從那時(shí)起,卷積神經(jīng)網(wǎng)絡(luò)不斷獲得完善,并已在 ImageNet 挑戰(zhàn)上超越人類。
現(xiàn)在,卷積神經(jīng)網(wǎng)絡(luò)在 ImageNet 的表現(xiàn)已超越人類。圖中 y 軸代表 ImageNet 錯(cuò)誤率。
雖然這些結(jié)果令人印象深刻,但與真實(shí)的人類視覺理解的多樣性和復(fù)雜性相比,圖像分類還是簡單得多。
分類挑戰(zhàn)賽使用的圖像實(shí)例。注意圖像的構(gòu)圖以及對(duì)象的性。
在分類中,圖像的焦點(diǎn)通常是一個(gè)單一目標(biāo),任務(wù)即是對(duì)圖像進(jìn)行簡單描述(見上文)。但是當(dāng)我們?cè)谟^察周遭世界時(shí),我們處理的任務(wù)相對(duì)復(fù)雜的多。
現(xiàn)實(shí)中的情景通常由許多不同的互相重疊的目標(biāo)、背景以及行為構(gòu)成。
我們看到的情景包含多個(gè)互相重疊的目標(biāo)以及不同的背景,并且我們不僅要分類這些不同的目標(biāo)還要識(shí)別其邊界、差異以及彼此的關(guān)系!
在圖像分割中,我們的目的是對(duì)圖像中的不同目標(biāo)進(jìn)行分類,并確定其邊界。來源:Mask R-CNN
卷積神經(jīng)網(wǎng)絡(luò)可以幫我們處理如此復(fù)雜的任務(wù)嗎?也就是說,給定一個(gè)更為復(fù)雜的圖像,我們是否可以使用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別圖像中不同的物體及其邊界?事實(shí)上,正如 Ross Girshick 和其同事在過去幾年所做的那樣,答案毫無疑問是肯定的。
本文的目標(biāo)
在本文中,我們將介紹目標(biāo)檢測和分割的某些主流技術(shù)背后的直觀知識(shí),并了解其演變歷程。具體來說,我們將介紹 R-CNN(區(qū)域 CNN),卷積神經(jīng)網(wǎng)絡(luò)在這個(gè)問題上的最初的應(yīng)用,及變體 Fast R-CNN 和 Faster R-CNN。最后,我們將介紹 Facebook Research 最近發(fā)布的一篇文章 Mask R-CNN,它擴(kuò)展了這種對(duì)象檢測技術(shù)從而可以實(shí)現(xiàn)像素級(jí)分割。上述四篇論文的鏈接如下:
1. R-CNN: https://arxiv.org/abs/1311.2524
2. Fast R-CNN: https://arxiv.org/abs/1504.08083
3. Faster R-CNN: https://arxiv.org/abs/1506.01497
4. Mask R-CNN: https://arxiv.org/abs/1703.06870
2014 年:R-CNN - 首次將 CNN 用于目標(biāo)檢測
目標(biāo)檢測算法,比如 R-CNN,可分析圖像并識(shí)別主要對(duì)象的位置和類別。
受到多倫多大學(xué) Hinton 實(shí)驗(yàn)室的研究的啟發(fā),加州伯克利大學(xué)一個(gè)由 Jitendra Malik 領(lǐng)導(dǎo)的小組,問了他們自己一個(gè)在今天看來似乎是不可避免的問題:
Krizhevsky et. al 的研究成果可在何種程度上被推廣至目標(biāo)檢測?
目標(biāo)檢測是一種找到圖像中的不同目標(biāo)并進(jìn)行分類的任務(wù)(如上圖所示)。通過在 PASCAL VOC Challenge 測試(一個(gè)知名的對(duì)象檢測挑戰(zhàn)賽,類似于 ImageNet),由 Ross Girshick(將在下文細(xì)講)、Jeff Donahue 和 Trevor Darrel 組成的團(tuán)隊(duì)發(fā)現(xiàn)這個(gè)問題確實(shí)可通過 Krizhevsky 的研究結(jié)果獲得解決。他們寫道:
Krizhevsky et. al 第一次提出:相比基于更簡單、HOG 般的特征的系統(tǒng),卷及神經(jīng)網(wǎng)絡(luò)可顯著提升 PASCAL VOC 上的目標(biāo)檢測性能。
現(xiàn)在讓我們花點(diǎn)時(shí)間來了解他們的架構(gòu) R-CNN 的運(yùn)作的方式。
理解 R-CNN
R-CNN 的目的為接收?qǐng)D像,并正確識(shí)別圖像中主要目標(biāo)(通過邊界框)的位置。
輸入:圖像
輸出:邊界框+圖像中每個(gè)目標(biāo)的標(biāo)注
但是我們?nèi)绾握页鲞@些邊界框的位置?R-CNN 做了我們也可以直觀做到的——在圖像中假設(shè)了一系列邊界,看它們是否可以真的對(duì)應(yīng)一個(gè)目標(biāo)。
通過多個(gè)尺度的窗口選擇性搜索,并搜尋共享紋理、顏色或強(qiáng)度的相鄰像素。圖片來源:https://www.koen.me/research/pub/uijlings-ijcv2013-draft.pdf
R-CNN 創(chuàng)造了這些邊界框,或者區(qū)域提案(region proposal)關(guān)于這個(gè)被稱為選擇性搜索(Selective Search)的方法,可在這里(鏈接:http://www.cs.cornell.edu/courses/cs7670/2014sp/slides/VisionSeminar14.pdf)閱讀更多信息。在高級(jí)別中,選擇性搜索(如上圖所示)通過不同尺寸的窗口查看圖像,并且對(duì)于不同尺寸,其嘗試通過紋理、顏色或強(qiáng)度將相鄰像素歸類,以識(shí)別物體。
在創(chuàng)建一組區(qū)域提案(region proposal)后,R-CNN 只需將圖像傳遞給修改版的 AlexNet 以確定其是否為有效區(qū)域。
一旦創(chuàng)建了這些提案,R-CNN 簡單地將該區(qū)域卷曲到一個(gè)標(biāo)準(zhǔn)的平方尺寸,并將其傳遞給修改版的 AlexNet(ImageNet 2012 的冠軍版本,其啟發(fā)了 R-CNN),如上所示。
在 CNN 的最后一層,R-CNN 添加了一個(gè)支持向量機(jī)(SVM),它可以簡單地界定物體是否為目標(biāo),以及是什么目標(biāo)。這是上圖中的第 4 步。
提升邊界框
現(xiàn)在,在邊界框里找到了目標(biāo),我們可以收緊邊框以適應(yīng)目標(biāo)的真實(shí)尺寸嗎?我們的確可以這樣做,這也是 R-CNN 的最后一步。R-CNN 在區(qū)域提案上運(yùn)行簡單的線性回歸,以生成更緊密的邊界框坐標(biāo)從而獲得最終結(jié)果。下面是這一回歸模型的輸入和輸出:
輸入:對(duì)應(yīng)于目標(biāo)的圖像子區(qū)域
輸出:子區(qū)域中目標(biāo)的新邊界框坐標(biāo)
所以,概括一下,R-CNN 只是以下幾個(gè)簡單的步驟
1. 為邊界框生成一組提案。
2. 通過預(yù)訓(xùn)練的 AlexNet 運(yùn)行邊界框中的圖像,最后通過 SVM 來查看框中圖像的目標(biāo)是什么。
3. 通過線性回歸模型運(yùn)行邊框,一旦目標(biāo)完成分類,輸出邊框的更緊密的坐標(biāo)。
2015: Fast R-CNN - 加速和簡化 R-CNN
Ross Girshick 編寫了 R-CNN 和 Fast R-CNN,并持續(xù)推動(dòng)著 Facebook Research 在計(jì)算機(jī)視覺方面的進(jìn)展。
R-CNN 性能很棒,但是因?yàn)橄率鲈蜻\(yùn)行很慢:
1. 它需要 CNN(AlexNet)針對(duì)每個(gè)單圖像的每個(gè)區(qū)域提案進(jìn)行前向傳遞(每個(gè)圖像大約 2000 次向前傳遞)。
2. 它必須分別訓(xùn)練三個(gè)不同的模型 - CNN 生成圖像特征,預(yù)測類別的分類器和收緊邊界框的回歸模型。這使得傳遞(pipeline)難以訓(xùn)練。
2015 年,R-CNN 的第一作者 Ross Girshick 解決了這兩個(gè)問題,并創(chuàng)造了第二個(gè)算法——Fast R-CNN。下面是其主要思想。
Fast R-CNN 見解 1:ROI(興趣區(qū)域)池化
對(duì)于 CNN 的前向傳遞,Girshick 意識(shí)到,對(duì)于每個(gè)圖像,很多提出的圖像區(qū)域總是相互重疊,使得我們一遍又一遍地重復(fù)進(jìn)行 CNN 計(jì)算(大約 2000 次?。?。他的想法很簡單:為什么不讓每個(gè)圖像只運(yùn)行一次 CNN,然后找到一種在 2000 個(gè)提案中共享計(jì)算的方法?
在 ROIPool 中,創(chuàng)建了圖像的完整前向傳遞,并從獲得的前向傳遞中提取每個(gè)興趣區(qū)域的轉(zhuǎn)換特征。來源:CS231N 幻燈片,F(xiàn)ei Fei Li、Andrei Karpathy、和 Justin Johnson 斯坦福大學(xué)
這正是 Fast R-CNN 使用被稱為 RoIPool(興趣區(qū)域池化)的技術(shù)所完成的事情。其要點(diǎn)在于,RoIPool 分享了 CNN 在圖像子區(qū)域的前向傳遞。在上圖中,請(qǐng)注意如何通過從 CNN 的特征映射選擇相應(yīng)的區(qū)域來獲取每個(gè)區(qū)域的 CNN 特征。然后,每個(gè)區(qū)域的特征簡單地池化(通常使用較大池化(Max Pooling))。所以我們所需要的是原始圖像的一次傳遞,而非大約 2000 次!
Fast R-CNN 見解 2:將所有模型并入一個(gè)網(wǎng)絡(luò)
Fast R-CNN 將卷積神經(jīng)網(wǎng)絡(luò)(CNN),分類器和邊界框回歸器組合為一個(gè)簡單的網(wǎng)絡(luò)。
Fast R-CNN 的第二個(gè)見解是在單一模型中聯(lián)合訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)、分類器和邊界框回歸器。之前我們有不同的模型來提取圖像特征(CNN),分類(SVM)和緊縮邊界框(回歸器),而 Fast R-CNN 使用單一網(wǎng)絡(luò)計(jì)算上述三個(gè)模型。
在上述圖像中,你可以看到這些工作是如何完成的。Fast R-CNN 在 CNN 頂部用簡單的 softmax 層代替了支持向量機(jī)分類器(SVM classfier)以輸出分類。它還添加了與 softmax 層平行的線性回歸層以輸出邊界框坐標(biāo)。這樣,所有需要的輸出均來自一個(gè)單一網(wǎng)絡(luò)!下面是整個(gè)模型的輸入和輸出:
輸入:帶有區(qū)域提案的圖像
輸出:帶有更緊密邊界框的每個(gè)區(qū)域的目標(biāo)分類
2016:Faster R-CNN—加速區(qū)域提案
即使有了這些進(jìn)步,F(xiàn)aster R-CNN 中仍存在一個(gè)瓶頸問題——區(qū)域提案器(region proposer)。正如我們所知,檢測目標(biāo)位置的第一步是產(chǎn)生一系列的潛在邊界框或者供測試的興趣區(qū)域。在 Fast R-CNN,通過使用選擇性搜索創(chuàng)建這些提案,這是一個(gè)相當(dāng)緩慢的過程,被認(rèn)為是整個(gè)流程的瓶頸。
微軟研究院首席研究員孫劍領(lǐng)導(dǎo)了 Faster R-CNN 團(tuán)隊(duì)。
2015 年中期,由 Shaoqing Ren、Kaiming He、Ross Girshick 和孫劍組成的微軟研究團(tuán)隊(duì),找到了一種被其命為 Faster R-CNN 的架構(gòu),幾乎把區(qū)域生成步驟的成本降為零。
?Faster R-CNN 的洞見是,區(qū)域提案取決于通過 CNN 的前向(forward pass)計(jì)算(分類的第一步)的圖像特征。為什么不重復(fù)使用區(qū)域提案的相同的 CNN 結(jié)果,以取代多帶帶運(yùn)行選擇性搜索算法?
在 Faster R-CNN,單個(gè) CNN 用于區(qū)域提案和分類。
事實(shí)上,這正是 Faster R-CNN 團(tuán)隊(duì)取得的成就。上圖中你可以看到單個(gè) CNN 如何執(zhí)行區(qū)域提案和分類。這樣一來,只需訓(xùn)練一個(gè) CNN,我們幾乎就可以免費(fèi)獲得區(qū)域提案!作者寫道:
我們觀察到,區(qū)域檢測器(如 Fast R-CNN)使用的卷積特征映射也可用于生成區(qū)域提案 [從而使區(qū)域提案的成本幾乎為零]。
以下是其模型的輸入和輸出:
?
輸入:圖像(注意并不需要區(qū)域提案)。
輸出:圖像中目標(biāo)的分類和邊界框坐標(biāo)。
如何生成區(qū)域
讓我們花點(diǎn)時(shí)間看看 Faster R-CNN 如何從 CNN 特征生成這些區(qū)域提案。Faster R-CNN 在 CNN 特征的頂部添加了一個(gè)簡單的完全卷積網(wǎng)絡(luò),創(chuàng)建了所謂的區(qū)域提案網(wǎng)絡(luò)。
區(qū)域提案網(wǎng)絡(luò)在 CNN 的特征上滑動(dòng)一個(gè)窗口。在每個(gè)窗口位置,網(wǎng)絡(luò)在每個(gè)錨點(diǎn)輸出一個(gè)分值和一個(gè)邊界框(因此,4k 個(gè)框坐標(biāo),其中 k 是錨點(diǎn)的數(shù)量)。
?
區(qū)域生成網(wǎng)絡(luò)的工作是在 CNN 特征映射上傳遞滑動(dòng)窗口,并在每個(gè)窗口中輸出 k 個(gè)潛在邊界框和分值,以便評(píng)估這些框有多好。這些 k 框表征什么?
我們知道,用于人的邊框往往是水平和垂直的。我們可以使用這種直覺,通過創(chuàng)建這樣維度的錨點(diǎn)來指導(dǎo)區(qū)域提案網(wǎng)絡(luò)。
我們知道圖像中的目標(biāo)應(yīng)該符合某些常見的縱橫比和尺寸。例如,我們想要一些類似人類形狀的矩形框。同樣,我們不會(huì)看到很多非常窄的邊界框。以這種方式,我們創(chuàng)建 k 這樣的常用縱橫比,稱之為錨點(diǎn)框。對(duì)于每個(gè)這樣的錨點(diǎn)框,我們?cè)趫D像中每個(gè)位置輸出一個(gè)邊界框和分值。
考慮到這些錨點(diǎn)框,我們來看看區(qū)域提案網(wǎng)絡(luò)的輸入和輸出:
?
輸入:CNN 特征圖。
輸出:每個(gè)錨點(diǎn)的邊界框。分值表征邊界框中的圖像作為目標(biāo)的可能性。
然后,我們僅將每個(gè)可能成為目標(biāo)的邊界框傳遞到 Fast R-CNN,生成分類和收緊邊界框。
2017:Mask R-CNN - 擴(kuò)展 Faster R-CNN 以用于像素級(jí)分割
圖像實(shí)例分割的目的是在像素級(jí)場景中識(shí)別不同目標(biāo)。
到目前為止,我們已經(jīng)懂得如何以許多有趣的方式使用 CNN,以有效地定位圖像中帶有邊框的不同目標(biāo)。
我們能進(jìn)一步擴(kuò)展這些技術(shù),定位每個(gè)目標(biāo)的較精確像素,而非僅限于邊框嗎?這個(gè)問題被稱為圖像分割。Kaiming He 和一群研究人員,包括 Girshick,在 Facebook AI 上使用一種稱為 Mask R-CNN 的架構(gòu)探索了這一圖像分割問題。
Facebook AI 的研究員 Kaiming He 是 Mask R-CNN 的主要作者,也是 Faster R-CNN 的聯(lián)合作者。
很像 Fast R-CNN 和 Faster R-CNN,Mask R-CNN 的基本原理非常簡單直觀。鑒于 Faster R-CNN 目標(biāo)檢測的效果非常好,我們能將其簡單地?cái)U(kuò)展到像素級(jí)分割嗎?
在 Mask R-CNN 中,在 Faster R-CNN 的 CNN 特征的頂部添加了一個(gè)簡單的完全卷積網(wǎng)絡(luò)(FCN),以生成 mask(分割輸出)。請(qǐng)注意它是如何與 Faster R-CNN 的分類和邊界框回歸網(wǎng)絡(luò)并行的。
Mask R-CNN 通過簡單地向 Faster R-CNN 添加一個(gè)分支來輸出二進(jìn)制 mask,以說明給定像素是否是目標(biāo)的一部分。如上所述,分支(在上圖中為白色)僅僅是 CNN 特征圖上的簡單的全卷積網(wǎng)絡(luò)。以下是其輸入和輸出:
輸入:CNN 特征圖。
輸出:在像素屬于目標(biāo)的所有位置上都有 1s 的矩陣,其他位置為 0s(這稱為二進(jìn)制 mask)。
但 Mask R-CNN 作者不得不進(jìn)行一個(gè)小的調(diào)整,使這個(gè)流程按預(yù)期工作。
RoiAlign——重對(duì)齊 RoIPool 以使其更準(zhǔn)確
圖像通過 RoIAlign 而不是 RoIPool 傳遞,使由 RoIPool 選擇的特征圖區(qū)域更較精確地對(duì)應(yīng)原始圖像的區(qū)域。這是必要的,因?yàn)橄袼丶?jí)分割需要比邊界框更細(xì)粒度的對(duì)齊。
當(dāng)運(yùn)行沒有修改的原始 Faster R-CNN 架構(gòu)時(shí),Mask R-CNN 作者意識(shí)到 RoIPool 選擇的特征圖的區(qū)域與原始圖像的區(qū)域略不對(duì)齊。因?yàn)閳D像分割需要像素級(jí)特異性,不像邊框,這自然地導(dǎo)致不準(zhǔn)確。
作者通過使用 RoIAlign 方法簡單地調(diào)整 RoIPool 來更較精確地對(duì)齊,從而解決了這個(gè)問題。
我們?nèi)绾螠?zhǔn)確地將原始圖像的相關(guān)區(qū)域映射到特征圖上?
想象一下,我們有一個(gè)尺寸大小為 128x128 的圖像和大小為 25x25 的特征圖。想象一下,我們想要的是與原始圖像中左上方 15x15 像素對(duì)應(yīng)的區(qū)域(見上文)。我們?nèi)绾螐奶卣鲌D選擇這些像素?
我們知道原始圖像中的每個(gè)像素對(duì)應(yīng)于原始圖像中的?25/128 像素。要從原始圖像中選擇 15 像素,我們只需選擇 15 * 25/128?=2.93 像素。
?
在 RoIPool,我們會(huì)舍棄一些,只選擇 2 個(gè)像素,導(dǎo)致輕微的錯(cuò)位。然而,在 RoIAlign,我們避免了這樣的舍棄。相反,我們使用雙線性插值來準(zhǔn)確得到 2.93 像素的內(nèi)容。這很大程度上,讓我們避免了由 RoIPool 造成的錯(cuò)位。
一旦這些掩碼生成,Mask R-CNN 簡單地將它們與來自 Faster R-CNN 的分類和邊界框組合,以產(chǎn)生如此驚人的較精確分割:
Mask R-CNN 也能對(duì)圖像中的目標(biāo)進(jìn)行分割和分類.
展望
在過去短短 3 年里,我們看到研究界如何從 Krizhevsky 等人最初結(jié)果發(fā)展為 R-CNN,最后一路成為 Mask R-CNN 的強(qiáng)大結(jié)果。多帶帶來看,像 MASK R-CNN 這樣的結(jié)果似乎是無法達(dá)到的驚人飛躍。然而,通過這篇文章,我希望你們認(rèn)識(shí)到,通過多年的辛勤工作和協(xié)作,這些進(jìn)步實(shí)際上是直觀的且漸進(jìn)的改進(jìn)之路。R-CNN、Fast R-CNN、Faster R-CNN 和最終的 Mask R-CNN 提出的每個(gè)想法并不一定是跨越式發(fā)展,但是它們的總和卻帶來了非常顯著的效果,幫助我們向人類水平的視覺能力又前進(jìn)了幾步。
特別令我興奮的是,R-CNN 和 Mask R-CNN 間隔只有三年!隨著持續(xù)的資金、關(guān)注和支持,計(jì)算機(jī)視覺在未來三年會(huì)有怎樣的發(fā)展?我們非常期待。
原文鏈接:https://blog.athelas.com/a-brief-history-of-cnns-in-image-segmentation-from-r-cnn-to-mask-r-cnn-34ea83205de4
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4544.html
摘要:這個(gè)像素級(jí)別的圖像分割問題被等科學(xué)家解決,這個(gè)框架被稱為。由于圖像分割需要做到像素級(jí),這與邊框分割不同,所以必然導(dǎo)致不準(zhǔn)確。 作者:chen_h微信號(hào) & QQ:862251340微信公眾號(hào):coderpai簡書地址:https://www.jianshu.com/p/867... 自從?Alex Krizhevsky, Geoff Hinton, and Ilya Sutskeve...
摘要:目前目標(biāo)檢測領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類的目標(biāo)檢測算法的目標(biāo)檢測算法。原來多數(shù)的目標(biāo)檢測算法都是只采用深層特征做預(yù)測,低層的特征語義信息比較少,但是目標(biāo)位置準(zhǔn)確高層的特征語義信息比較豐富,但是目標(biāo)位置比較粗略。 目前目標(biāo)檢測領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類:two stage的目標(biāo)檢測算法;one stage的目標(biāo)檢測算法。前者是先由算法生成一系列作為樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本...
摘要:基于候選區(qū)域的目標(biāo)檢測器滑動(dòng)窗口檢測器自從獲得挑戰(zhàn)賽冠軍后,用進(jìn)行分類成為主流。一種用于目標(biāo)檢測的暴力方法是從左到右從上到下滑動(dòng)窗口,利用分類識(shí)別目標(biāo)。這些錨點(diǎn)是精心挑選的,因此它們是多樣的,且覆蓋具有不同比例和寬高比的現(xiàn)實(shí)目標(biāo)。 目標(biāo)檢測是很多計(jì)算機(jī)視覺任務(wù)的基礎(chǔ),不論我們需要實(shí)現(xiàn)圖像與文字的交互還是需要識(shí)別精細(xì)類別,它都提供了可靠的信息。本文對(duì)目標(biāo)檢測進(jìn)行了整體回顧,第一部分從RCNN...
摘要:然而,幸運(yùn)的是,目前更為成功的目標(biāo)檢測方法是圖像分類模型的擴(kuò)展。幾個(gè)月前,發(fā)布了一個(gè)用于的新的目標(biāo)檢測。 隨著自動(dòng)駕駛汽車、智能視頻監(jiān)控、人臉檢測和各種人員計(jì)數(shù)應(yīng)用的興起,快速和準(zhǔn)確的目標(biāo)檢測系統(tǒng)也應(yīng)運(yùn)而生。這些系統(tǒng)不僅能夠?qū)D像中的每個(gè)目標(biāo)進(jìn)行識(shí)別和分類,而且通過在其周圍畫出適當(dāng)?shù)倪吔鐏韺?duì)其進(jìn)行局部化(localizing)。這使得目標(biāo)檢測相較于傳統(tǒng)的計(jì)算機(jī)視覺前身——圖像分類來說更加困難...
閱讀 1108·2021-10-14 09:43
閱讀 1159·2021-10-11 11:07
閱讀 3118·2021-08-18 10:23
閱讀 1494·2019-08-29 16:18
閱讀 1010·2019-08-28 18:21
閱讀 1480·2019-08-26 12:12
閱讀 3767·2019-08-26 10:11
閱讀 2507·2019-08-23 18:04