摘要:是針對(duì)語(yǔ)義分割任務(wù)提出的模型,主要使用深度卷積網(wǎng)絡(luò)條件隨機(jī)場(chǎng),空洞卷積做像素級(jí)預(yù)測(cè)。在語(yǔ)義分割中存在兩個(gè)主要問(wèn)題下采樣帶來(lái)的分辨率下降,細(xì)節(jié)信息丟失平移不變性,限制了定位精度針對(duì)以上問(wèn)題,采用空洞卷積擴(kuò)大感受野,獲取更多的上下文信息。
背景
對(duì)圖像而言,常見(jiàn)的任務(wù)是:
圖像分類:提取類別特征,如:VGG19網(wǎng)絡(luò)
目標(biāo)檢測(cè):提取類別,位置特征,如:YOLO網(wǎng)絡(luò)
語(yǔ)義分割(實(shí)例分割):提取類別,位置特征,針對(duì)每個(gè)像素,如:Deeplab網(wǎng)絡(luò)
我們知道,在做圖像分類的時(shí)候,一般會(huì)在模型的最后添加全連接層+softmax用于預(yù)測(cè)。但是,全連接層會(huì)把卷積學(xué)習(xí)到的類別,位置特征抽象成一維的概率信息,可以識(shí)別整個(gè)圖片的類別,不能標(biāo)識(shí)每個(gè)像素的類別。因此,為了保留圖像特征我們將全連接層替換為卷積層。
這樣,模型的輸出不再是一維,而是二維的圖。
由于特征圖經(jīng)過(guò)一系列的卷積和池化后(保持特征不變性,增大感受野,節(jié)省計(jì)算資源等)造成分辨率降低,丟失大量細(xì)節(jié)和邊緣信息,因此我們需要通過(guò)一定的手段還原原圖分辨率。
不同的模型會(huì)采取不同的還原方式,圖上以FCN為例,采用反卷積還原分辨率并使用加和的方式找回下采樣階段丟失的信息,直接把編碼階段的特征圖加到解碼階段中來(lái)。
基石FCN模型FCN闡釋了如何將CNN應(yīng)用到語(yǔ)義分割問(wèn)題上,是深度學(xué)習(xí)應(yīng)用此問(wèn)題的基石。
文章開始,我們談到模型最后的全連接層不適用與分割任務(wù),需要替換成卷積層,以此獲取二維的特征圖然后接softmax,對(duì)每個(gè)像素點(diǎn)進(jìn)行分類。
先通過(guò)卷積,池化下采樣,然后上采樣還原分辨率。上采樣一般有兩種方式:雙線性插值(Deeplab),反卷積(FCN)。
DeepLab是針對(duì)語(yǔ)義分割任務(wù)提出的模型,主要使用DCNN(深度卷積網(wǎng)絡(luò)),CRF(條件隨機(jī)場(chǎng)),空洞卷積做像素級(jí)預(yù)測(cè)。DCNN在語(yǔ)義分割中存在兩個(gè)主要問(wèn)題:
下采樣帶來(lái)的分辨率下降,細(xì)節(jié)信息丟失
平移不變性,限制了定位精度
針對(duì)以上問(wèn)題,Deeplab采用空洞卷積擴(kuò)大感受野,獲取更多的上下文信息。使用全連接條件隨機(jī)場(chǎng)(DenseCRF)提高模型捕獲細(xì)節(jié)的能力。
DCNN以VGG16模型為后端網(wǎng)絡(luò),將FC層全部轉(zhuǎn)為卷積層,改成全卷積網(wǎng)絡(luò)形式。最后的兩個(gè)池化層不下采樣,通過(guò)2或4的采樣率空洞卷積對(duì)特征圖擴(kuò)大感受野,縮小步幅。
模型訓(xùn)練的時(shí)候講VGG16的權(quán)重做微調(diào),損失函數(shù)取輸出特征圖ground truth下采樣8倍做交叉熵和;測(cè)試時(shí)取輸出圖雙線性上采樣得到的結(jié)果(DCNN預(yù)測(cè)物體的位置是粗略的,沒(méi)有確切的輪廓,針對(duì)此問(wèn)題采用全連接的CRF提升分割精度)。
DeepLab v2相比DeepLab v1基礎(chǔ)層由VGG16改為ResNet,添加多尺度和ASPP模塊得到更好的分割結(jié)果。
空洞卷積作為密集預(yù)測(cè)的強(qiáng)大工具,可以擴(kuò)大感受野,在不增加參數(shù)量和計(jì)算量的同時(shí)獲取更多的上下文。
提出ASPP(空洞空間卷積池化金字塔),并行的采用多采樣率的空洞卷積進(jìn)行探測(cè),以多個(gè)比例捕獲對(duì)象及圖像上下文。
組合DCNN和概率模型,改善分割邊界結(jié)果。
模型運(yùn)行步驟:
輸入經(jīng)過(guò)改進(jìn)的DCNN(帶空洞卷積和ASPP模塊)
通過(guò)雙線性插值恢復(fù)原圖大?。‵CN采用反卷積)
通過(guò)全連接的CRF細(xì)化預(yù)測(cè)結(jié)果,得到最終輸出
Google DeepLab v3DeepLab v3相比DeepLab v2:
重新討論了空洞卷積的使用,讓我們?cè)诩?jí)聯(lián)模塊和空間金字塔池化的框架下,能夠獲取更大的感受野從而獲取多尺度信息。
改進(jìn)ASPP模塊,由不同采樣率的空洞卷積和BN層組成。
使用大采樣率的3x3空洞卷積,因?yàn)閳D像邊界響應(yīng)無(wú)法捕獲遠(yuǎn)距離信息,會(huì)退化為1x1卷積,因此將圖像級(jí)特征融合到ASPP模塊。
沒(méi)有使用CRF做后期優(yōu)化處理
Google DeepLab v3+
DeepLab v3+采用編碼器,解碼器結(jié)構(gòu),通過(guò)使用解碼器模塊改善物體邊緣的分割結(jié)果,還嘗試使用Xception作為編碼器。
如圖所示,空間金字塔池化可以池化不同分辨率的特征圖來(lái)捕獲上下文信息。編碼器解碼器結(jié)構(gòu)可以捕獲鋒利的邊界。先4倍上采樣,然后與編碼器中的特征圖合并,最后4倍上采樣恢復(fù)到原始圖像大小。
encoder就是DeepLab V3,通過(guò)修改ResNet101最后兩(一)個(gè)block的stride,使得output stride為8(16)。之后在block4后應(yīng)用改進(jìn)后的Atrous Spatial Pyramid Pooling,將所得的特征圖concatenate用1×1的卷積得到256個(gè)通道的特征圖。
在decoder中,特征圖首先上采樣4倍,然后與encoder中對(duì)應(yīng)分辨率低級(jí)特征concatenate。在concatenate之前,由于低級(jí)特征圖的通道數(shù)通常太多(256或512),而從encoder中得到的富含語(yǔ)義信息的特征圖通道數(shù)只有256,這樣會(huì)淡化語(yǔ)義信息,因此在concatenate之前,需要將低級(jí)特征圖通過(guò)1×1的卷積減少通道數(shù)。在concatenate之后用3×3的卷積改善特征,最后上采樣4倍恢復(fù)到原始圖像大小。
U-Net網(wǎng)絡(luò)可以利用較少的數(shù)據(jù)集進(jìn)行端到端訓(xùn)練,醫(yī)學(xué)領(lǐng)域應(yīng)用較多(醫(yī)學(xué)領(lǐng)域的標(biāo)注數(shù)據(jù)獲取成本很高)。
為了更有效的利用標(biāo)注數(shù)據(jù),采用數(shù)據(jù)增強(qiáng)的方法(訓(xùn)練樣本進(jìn)行隨機(jī)彈性形變)
網(wǎng)絡(luò)由收縮路徑獲取上下文信息以及一個(gè)對(duì)稱的擴(kuò)張路徑用以精確定位。
如圖所示,網(wǎng)絡(luò)結(jié)構(gòu)由contracting path和expansive path組成。
contracting:
含有重復(fù)結(jié)構(gòu),每個(gè)都有2個(gè)3x3卷積層,relu層和2x2最大池化層
每一次下采樣都將特征通道數(shù)加倍
expansive path:
每一步都使用反卷積,每次反卷積后將通道數(shù)量減半,特征圖大小加倍。
反卷積后,將反卷積的結(jié)果與contracting path中對(duì)應(yīng)的步驟的特征圖拼接起來(lái)
對(duì)拼接后的map再進(jìn)行2次3*3卷積
最后一層卷積核大小為1x1,將64通道的特征圖轉(zhuǎn)為特定類別數(shù)量
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/19989.html
摘要:一時(shí)之間,深度學(xué)習(xí)備受追捧。百度等等公司紛紛開始大量的投入深度學(xué)習(xí)的應(yīng)用研究。極驗(yàn)驗(yàn)證就是將深度學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)安全防御,通過(guò)深度學(xué)習(xí)建模學(xué)習(xí)人類與機(jī)器的行為特征,來(lái)區(qū)別人與機(jī)器,防止惡意程序?qū)W(wǎng)站進(jìn)行垃圾注冊(cè),撞庫(kù)登錄等。 2006年Geoffery ?Hinton提出了深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò)),并在2012年的ImageNet競(jìng)賽中有非凡的表現(xiàn),以15.3%的Top-5錯(cuò)誤率奪魁,比利用傳...
摘要:對(duì)批處理表的查詢不支持,和很多中常見(jiàn)的標(biāo)量函數(shù)。此外,可以同時(shí)在靜態(tài)表和流表上進(jìn)行查詢,這和的愿景是一樣的,將批處理看做特殊的流處理批看作是有限的流。最后,使用標(biāo)準(zhǔn)進(jìn)行流處理意味著有很多成熟的工具支持。查詢結(jié)果直接顯示在中。 從何而來(lái) 關(guān)系型API有很多好處:是聲明式的,用戶只需要告訴需要什么,系統(tǒng)決定如何計(jì)算;用戶不必特地實(shí)現(xiàn);更方便優(yōu)化,可以執(zhí)行得更高效。本身Flink就是一個(gè)統(tǒng)一...
閱讀 1834·2023-04-26 02:51
閱讀 2867·2021-09-10 10:50
閱讀 3068·2021-09-01 10:48
閱讀 3632·2019-08-30 15:53
閱讀 1827·2019-08-29 18:40
閱讀 414·2019-08-29 16:16
閱讀 2038·2019-08-29 13:21
閱讀 1825·2019-08-29 11:07