摘要:那些局部響應由小的通常神經(jīng)補丁表示。概述我們尋求對損失函數(shù)進行了優(yōu)化的修復圖像,其被表示為三個項的組合整體內(nèi)容項,局部紋理項和項。我們的方法使用兩個聯(lián)合損失函數(shù)來解決未知圖像,即整體內(nèi)容損失和局部紋理損失。
完勝 PS!新方法實現(xiàn)完美“腦補”
在分享照片之前,你可能會想進行一些修改,例如擦除分散注意力的場景元素,調(diào)整圖像中的物體位置以獲得更好的組合效果,或者把被遮擋的部分恢復出來。
這些操作,以及其他許多編輯操作,需要進行自動的孔洞填充(圖像補足),這是過去幾十年間計算機視覺和圖形領(lǐng)域的一個研究熱點。因為自然圖像固有的模糊性和復雜性,整體填充也是長期以來的難點。
但現(xiàn)在,這個問題終于得到了比較好的解決,證據(jù)就是下面這幅圖。
這項全新研究的主要貢獻是:
提出了一個聯(lián)合優(yōu)化框架,可以通過用卷積神經(jīng)網(wǎng)絡為全局內(nèi)容約束和局部紋理約束建模,來虛構(gòu)出缺失的圖像區(qū)域。
進一步介紹了基于聯(lián)合優(yōu)化框架的用于高分辨率圖像修復的多尺度神經(jīng)補丁合成算法。
在兩個公共數(shù)據(jù)集上評估了所提出的方法,并證明了其優(yōu)于基線和現(xiàn)有技術(shù)的優(yōu)勢。
克服現(xiàn)有方法局限,用深度學習風格轉(zhuǎn)移合成逼真細節(jié)
我們稍后會詳細介紹這項研究成果。在此之前,有必要補充一下背景知識。
現(xiàn)有的解決孔洞填充問題的方法分為兩組。第一組方法依賴于紋理合成技術(shù),其通過擴展周圍區(qū)域的紋理來填充空白。這些技術(shù)的共同點是使用相似紋理的補丁,以從粗到精的方式合成孔洞的內(nèi)容。有時,會引入多個尺度和方向,以找到更好的匹配補丁。Barnes et al.(2009) 提出了 PatchMatch,這是一種快速近似最近鄰補丁的搜索算法。
盡管這樣的方法有益于傳遞高頻紋理細節(jié),但它們不抓取圖像的語義或全局結(jié)構(gòu)。第二組方法利用大型外部數(shù)據(jù)庫,以數(shù)據(jù)驅(qū)動的方式虛構(gòu)缺失的圖像區(qū)域。這些方法假定被相似上下文包圍的區(qū)域可能具有相似的內(nèi)容。如果能找到和所查詢圖像具有足夠視覺相似度的圖像樣本,這種方法會非常有效,但是當查詢圖像在數(shù)據(jù)庫中沒有被很好地表示時,該方法可能會失敗。另外,這樣的方法需要訪問外部數(shù)據(jù)庫,這極大地限制了可能的應用場景。
最近,深度神經(jīng)網(wǎng)絡被用于紋理合成和圖像的風格化(stylization)。特別需要指出,Phatak et al(2016)訓練了具有結(jié)合了和對抗性損失的編碼器 - 解碼器 CNN(Context Encoders)來直接預測丟失的圖像區(qū)域。這項工作能夠預測合理的圖像結(jié)構(gòu),并且評估非常快,因為孔洞區(qū)域的預測是在a single forward pass中進行的。雖然結(jié)果令人鼓舞,但有時這種方法的修復結(jié)果缺乏精細的紋理細節(jié),在空白區(qū)域的邊界周圍會產(chǎn)生可見的偽跡。 這種方法也不能處理高分辨率圖像,因為當輸入較大時,和對抗性損失相關(guān)的訓練會有困難。
在最近的一項研究中,Li和Wand(2016)指出,通過對圖像進行優(yōu)化(該圖像的中間層神經(jīng)響應與內(nèi)容圖像相似,底層卷局部響應模仿style圖像的局部響應),可以實現(xiàn)逼真的圖像stylization結(jié)果。那些局部響應由小的(通常3×3)神經(jīng)補丁表示。 該方法證明能夠?qū)⒏哳l率細節(jié)從style圖像傳輸?shù)絻?nèi)容圖像,因此適合于實際的傳遞任務(例如,傳遞面部或汽車的外觀)。盡管如此,通過使用神經(jīng)響應的 gram matrices 能更好地進行更多藝術(shù)風格的傳遞。
好,是主角出場的時候了——
為了克服上述方法的局限性,來自伯克利、Adobe、Pinscreen 和 USC Institute for Creative Technologies 的研究人員提出了一種混合優(yōu)化方法(joint optimization),利用編碼器 - 解碼器CNN的結(jié)構(gòu)化預測和神經(jīng)補丁的力量,成功合成了實際的高頻細節(jié)。類似于風格轉(zhuǎn)移,他們的方法將編碼器 - 解碼器預測作為全局內(nèi)容約束,并且將孔洞和已知區(qū)域之間的局部神經(jīng)補丁相似性作為風格(style)約束。
更具體地說,使用中間層的補丁響應(該中間層使用預訓練分類網(wǎng)絡),可以通過訓練類似于 Context Encoder 的全局內(nèi)容預測網(wǎng)絡來構(gòu)造內(nèi)容約束,并且可以用環(huán)繞孔洞的圖像內(nèi)容來對紋理約束進行建模??梢允褂镁哂杏邢薮鎯Φ?BFGS 的反向傳遞算法來有效地優(yōu)化這兩個約束。
作者在論文中寫道:“我們通過實驗證明,新提出的多尺度神經(jīng)補丁合成方法可以產(chǎn)生更多真實和連貫的結(jié)果,保留結(jié)構(gòu)和紋理的細節(jié)。我們在兩個公共數(shù)據(jù)集上定量和定性地評估了所提出的方法,并證明了其在各種基線和現(xiàn)有技術(shù)上的有效性,如圖1 所示?!?/p>
圖1:對于給定的一張帶有孔洞(256×256)的圖像(512×512),我們的算法可以合成出更清晰連貫的孔洞內(nèi)容(d)。我們可以和用Context Encoders(b)、PatchMatch(c)這兩種方法產(chǎn)生的結(jié)果進行比較。
具體方法
為了進一步處理帶有大面積孔洞的高分辨率圖像,作者提出了一種多尺度神經(jīng)補丁合成方法。為了簡化公式,假設測試圖像始終裁剪為 512×512,中間有一個 256×256 的孔洞。然后,創(chuàng)建一個三級金字塔,步長為二,在每個級別將圖像縮小一半。它呈現(xiàn) 128×128 的較低分辨率,帶有 64×64 的孔洞。接下來,我們以從粗到精的方式執(zhí)行孔洞填充任務。初始化較低級別的內(nèi)容預測網(wǎng)絡的輸出,在每個尺度(1)執(zhí)行聯(lián)合優(yōu)化以更新孔洞;(2)upsample 以初始化聯(lián)合優(yōu)化并為下一個尺度設置內(nèi)容約束。最后,重復此步驟,直到聯(lián)合優(yōu)化以較高分辨率完成。
Framework 概述
我們尋求對損失函數(shù)進行了優(yōu)化的修復圖像,其被表示為三個項的組合:整體內(nèi)容項,局部紋理項和tv-loss項。 內(nèi)容項是捕獲圖像的語義和全局結(jié)構(gòu)的全局結(jié)構(gòu)約束,并且局部項通過使其與已知區(qū)域一致來重新定義局部紋理。 內(nèi)容項和紋理項均使用具有固定參數(shù)的預訓練網(wǎng)絡來計算。
圖2. Framework 概述。我們的方法使用兩個聯(lián)合損失函數(shù)來解決未知圖像,即整體內(nèi)容損失和局部紋理損失。通過將圖像饋送到預訓練的內(nèi)容預測網(wǎng)絡,并且將輸出與推理(reference)內(nèi)容預測進行比較來導出整體內(nèi)容損失。 通過將 x 饋送到預訓練網(wǎng)絡(稱為紋理網(wǎng)絡),并且在其特征圖上比較局部神經(jīng)補丁來導出局部紋理損失。
高分辨率圖像修復的算法
給定一個帶有孔洞的高分辨率圖像,我們產(chǎn)生了多尺度輸入其中S是尺度的數(shù)量。s = 1是最粗糙的尺度,s = S是輸入圖像的原始分辨率。我們以迭代多尺度方式進行這一優(yōu)化。
我們首先將輸入縮小到粗糙尺度,計算內(nèi)容的推理(reference)。在實際操作中,我們在 upsample 到一個新尺度時,將寬度和高度加倍。 在每個尺度中,我們根據(jù)等式 1 更新,通過 upsample 設置優(yōu)化初始,并通過 upsample 在尺度上設置內(nèi)容 reference。我們因此迭代地取得高分辨率的修復結(jié)果。算法1 是對該算法的總結(jié)。
實驗過程
數(shù)據(jù)集
我們在兩個不同的數(shù)據(jù)集上評估了我們提出的方法:Paris StreetView 和ImageNet 。 不使用與這些圖像相關(guān)聯(lián)的標簽或其他信息。 Paris StreetView 包含 14,900 個訓練圖像和 100個測試圖像。 ImageNet 有 1,260,000 個訓練圖像,以及從驗證集隨機選取的 200 個測試圖像。 我們還選擇了20個含干擾項的圖像,以測試我們用于真實干擾項移除場景的算法。
量化比較
我們首先在 Paris StreetView 數(shù)據(jù)集上就低分辨率圖像(128×128)將我們的方法和基線方法進行了定量比較。表1中的結(jié)果表明,我們的方法實現(xiàn)了較高的數(shù)值性能。我們將這歸因于我們方法的性質(zhì)——和 PatchMatch 相比,它能夠推斷圖像的正確結(jié)構(gòu),而和 Context Encoder 相比,它能夠從已知區(qū)域傳遞紋理細節(jié)。(圖3)我們優(yōu)于PatchMatch的結(jié)果表明,內(nèi)容網(wǎng)絡有助于預測合理的結(jié)構(gòu)。我們勝過 Context Encoder 的結(jié)果表明,由紋理網(wǎng)絡執(zhí)行的神經(jīng)補丁合成方法的有效性。
表1:在Paris StreetView數(shù)據(jù)集上的數(shù)值比較。PSNR值越高越好。
圖3:Context Encoder(損失)、Context Encoders(對抗性損失)和PatchMatch的比較。當從邊界向孔洞區(qū)域傳遞紋理時,我們的方法比Context Encoder(既使用損失也使用對抗性損失)表現(xiàn)更好。在推理正確結(jié)構(gòu)時,我們的方法比PatchMatch表現(xiàn)更好。
內(nèi)容網(wǎng)絡在聯(lián)合優(yōu)化中的作用。我們比較了使用內(nèi)容約束和不使用內(nèi)容約束的修復結(jié)果。如圖4 所示,當不使用內(nèi)容項來引導優(yōu)化時,修復結(jié)果的結(jié)構(gòu)出錯了。
圖4:(a)為原始輸入,(b)是不使用內(nèi)容約束產(chǎn)生的修復結(jié)果,(c)是我們的結(jié)果。
高分辨率圖像修復
圖5是在ImageNet數(shù)據(jù)集上的比較結(jié)果。從上至下:原始輸入,PatchMatch,Context Encoder(同時使用和對抗性損失),我們的結(jié)果。所有圖像分辨率都是512×512(本文中已縮小以適應頁面顯示)。
圖6是在Paris StreetView數(shù)據(jù)集上的比較結(jié)果。從上至下:原始輸入,PatchMatch,Context Encoder(同時使用和對抗性損失),我們的結(jié)果。所有圖像分辨率都是512×512(本文中已縮小以適應頁面顯示)。
真實世界干擾項去除場景
最后,我們的算法很容易擴展為處理任意形狀的孔洞。 這是通過估計任意孔洞周圍的邊界平方,填充孔洞內(nèi)的平均像素值,并通過裁剪圖像形成輸入,以使正方形邊界框處于輸入的中心,并將輸入調(diào)整為內(nèi)容網(wǎng)絡輸入的大小。然后,我們使用已經(jīng)訓練的內(nèi)容網(wǎng)絡進行前向傳播。在聯(lián)合優(yōu)化中,紋理網(wǎng)絡對自然中孔洞的形狀和位置沒有限制。這是分離將內(nèi)容和紋理項分離的額外好處。由于 Context Encoder 僅限于方孔,我們在圖7中展示了和 PatchMatch 的對比結(jié)果。如圖所示,我們提出的聯(lián)合優(yōu)化方法更好地預測了結(jié)構(gòu),并提供了清晰和逼真的結(jié)果。
圖7:隨意對象的去除。從左到右:原始輸入,對象遮擋,PatchMatch 結(jié)果,我們的結(jié)果。
結(jié)論
作者使用神經(jīng)補丁合成提升了語義修復的現(xiàn)有技術(shù)??梢钥吹剑攦?nèi)容網(wǎng)絡給出較強的關(guān)于語義和全局結(jié)構(gòu)的先驗信息時,紋理網(wǎng)絡在生成高頻細節(jié)方面非常強大。有一些場景復雜的情況,這種新的方法會產(chǎn)生不連續(xù)性和違背真實的圖像(圖8)。此外,速度仍然是這種算法的瓶頸。研究人員的目標是在未來的工作中解決這些問題。
圖8:這是兩個聯(lián)合優(yōu)化法失敗的例子。
論文:使用多尺度神經(jīng)補丁合成修補高分辨率圖像
摘要
對于帶有語義合理性和情境感知細節(jié)的自然圖像,深度學習的進展為填充這些圖像上的大面積孔洞帶來了樂觀的前景,并影響了諸如對象移除這樣的基本的圖像處理任務。雖然這些基于學習的方法在捕獲高級特征方面比現(xiàn)有技術(shù)明顯更有效,但由于存儲器限制和訓練困難,它們只能處理分辨率很低的輸入。即使對于稍大的圖像,修復的區(qū)域也會顯得模糊,而且可以看到令人不快的邊界。我們提出一種基于圖像內(nèi)容和風格(style)約束聯(lián)合優(yōu)化的多尺度神經(jīng)補丁合成方法,不僅保留上下文結(jié)構(gòu),而且通過匹配和適應具有與深度分類網(wǎng)絡相似的中層特性的補丁,可以產(chǎn)生高頻細節(jié)。我們在 ImageNet 和 Paris Streetview 數(shù)據(jù)集上評估了我們的方法,并實現(xiàn)了較先進的修復精度。我們表明,相對于之前的方法,我們的方法可以產(chǎn)生更清晰和更連貫的結(jié)果,特別是對于高分辨率圖像來說。
論文地址:https://arxiv.org/pdf/1611.09969.pdf
Github 代碼:https://github.com/leehomyc/High-Res-Neural-Inpainting
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4459.html
摘要:此前有工作將像素損失和生成對抗損失整合為一種新的聯(lián)合損失函數(shù),訓練圖像轉(zhuǎn)換模型產(chǎn)生分辨率更清的結(jié)果。一般來說,結(jié)合使用多種損失函數(shù)的效果通常比單獨使用一種要好。結(jié)合感知對抗損失和生成對抗損失,提出了感知對抗網(wǎng)絡這一框架,處理圖像轉(zhuǎn)換任務。 近來,卷積神經(jīng)網(wǎng)絡的發(fā)展,結(jié)合對抗生成網(wǎng)絡(GAN)等嶄新的方法,為圖像轉(zhuǎn)換任務帶來了很大的提升,包括圖像超分辨率、去噪、語義分割,還有自動補全,都有亮眼...
摘要:是世界上最重要的研究者之一,他在谷歌大腦的競爭對手,由和創(chuàng)立工作過不長的一段時間,今年月重返,建立了一個探索生成模型的新研究團隊。機器學習系統(tǒng)可以在這些假的而非真實的醫(yī)療記錄進行訓練。今年月在推特上表示是的,我在月底離開,并回到谷歌大腦。 理查德·費曼去世后,他教室的黑板上留下這樣一句話:我不能創(chuàng)造的東西,我就不理解。(What I cannot create, I do not under...
摘要:實現(xiàn)這一應用的基本思想方法是將圖像的每一列用向量來表示,計算每一個的平均值,從而得到一個向量。標準加強學習模型通常要求建立一個獎勵函數(shù),用于向代理機器反饋符合預期的行為。來源更多信息自學成才讓好奇驅(qū)動計算機學習在很多 還記得《射雕英雄傳》中老頑童發(fā)明的左右互搏術(shù)嗎??表面上看,左手與右手互為敵手,斗得不可開交。實際上,老頑童卻憑借此練就了一門絕世武功。?這樣的故事似乎只能發(fā)生在小說中。然而,...
摘要:最近,這就是街舞第二季開播,又一次燃起了全民熱舞的風潮。然而,真要自己跳起來,實際與想象之間,估計差了若干個羅志祥。系統(tǒng)映射結(jié)果展示對于系統(tǒng)的結(jié)果,研究人員表示還不完美。谷歌在和跳舞的結(jié)合上也花了心思。好了,先不說了,我要去跟學跳舞了。 最近,《這!就是街舞》第二季開播,又一次燃起了全民熱舞的風潮。 剛開播沒多久,這個全程高能的節(jié)目,就在豆瓣上就得到了 9.6 的高分。舞者們在比賽中精...
摘要:該研究成果由韓國團隊發(fā)表于論文地址訓練數(shù)據(jù)恰當?shù)挠柧殧?shù)據(jù)有助于提高網(wǎng)絡訓練性能。在將損失函數(shù)應用于輸入圖像之前,用輸入圖像替換了掩模外部的圖像的剩余部分??傮w損失函數(shù)如下其中,發(fā)生器用進行訓練,鑒別器用進行訓練。 為一個設計師,是否整天因為繁瑣枯燥的修圖工作不勝其煩?現(xiàn)在,一款基于GAN的AI修圖大師可以將你從這類工作中解放出來。修輪廓、改表情、生發(fā)、加耳環(huán)、去眼鏡、補殘圖,你能想到的它都能...
閱讀 1594·2021-09-02 15:41
閱讀 1000·2021-09-02 15:11
閱讀 1280·2021-07-28 00:15
閱讀 2311·2019-08-30 15:55
閱讀 1146·2019-08-30 15:54
閱讀 1695·2019-08-30 15:54
閱讀 2977·2019-08-30 14:02
閱讀 2526·2019-08-29 16:57