摘要:而訓(xùn)練的好壞,以及逆映射的好壞對(duì)實(shí)驗(yàn)結(jié)果影響會(huì)比較大,經(jīng)過(guò)幾個(gè)階段的訓(xùn)練,圖像的內(nèi)容損失會(huì)比較嚴(yán)重,實(shí)際中我們也可以觀察到的實(shí)驗(yàn)效果比較差。
這是一篇總結(jié)文,總結(jié)我看過(guò)的幾篇用GAN做圖像翻譯的文章的“套路”。
首先,什么是圖像翻譯?
為了說(shuō)清楚這個(gè)問(wèn)題,下面我給出一個(gè)不嚴(yán)謹(jǐn)?shù)男问交x。我們先來(lái)看兩個(gè)概念。第一個(gè)概念是圖像內(nèi)容(content) ?,它是圖像的固有內(nèi)容,是區(qū)分不同圖像的依據(jù)。第二個(gè)概念是圖像域(domain),域內(nèi)的圖像可以認(rèn)為是圖像內(nèi)容被賦予了某些相同的屬性。舉個(gè)例子,我們看到一張貓的圖片,圖像內(nèi)容就是那只特定的喵,如果我們給圖像賦予彩色,就得到了現(xiàn)實(shí)中看到的喵;如果給那張圖像賦予鉛筆畫(huà)屬性,就得到了一只“鉛筆喵”。喵~
當(dāng)然,還有一種圖像翻譯,在翻譯的時(shí)候會(huì)把圖像內(nèi)容也換掉,下面介紹的方法也適用于這種翻譯,這種翻譯除了研究圖像屬性的變化,還可以研究圖像內(nèi)容的變化,在這里就不做討論了。
常見(jiàn)的GAN圖像翻譯方法
下面簡(jiǎn)單總結(jié)幾種GAN的圖像翻譯方法。
pix2pix
簡(jiǎn)單來(lái)說(shuō),它就是跟cGAN。Generator的輸入不再是noise,而是圖像。
CycleGAN/DualGAN/DiscoGAN
要求圖像翻譯以后翻回來(lái)還是它自己,實(shí)現(xiàn)兩個(gè)域圖像的互轉(zhuǎn)。
DTN
用一個(gè)encoder實(shí)現(xiàn)兩個(gè)域的共性編碼,通過(guò)特定域的decoder解碼,實(shí)現(xiàn)圖像翻譯。
FaderNets
用encoder編碼圖像的內(nèi)容,通過(guò)喂給它不同的屬性,得到內(nèi)容的不同表達(dá)。
IcGAN
依靠cGAN喂給它不同屬性得到不同表達(dá)的能力,學(xué)一個(gè)可逆的cGAN以實(shí)現(xiàn)圖想到圖像的翻譯(傳統(tǒng)的cGAN是編碼+屬性到圖像的翻譯)。
GeneGAN
將圖像編碼成內(nèi)容和屬性,通過(guò)交換兩張圖的屬性,實(shí)現(xiàn)屬性的互轉(zhuǎn)。
Face Age-cGAN
這篇是做同個(gè)人不同年齡的翻譯。依靠cGAN喂給它不同屬性(年齡)得到不同年齡的圖像的能力,學(xué)cGAN的逆變換以得到圖像內(nèi)容的編碼,再通過(guò)人臉識(shí)別系統(tǒng)糾正編碼,實(shí)現(xiàn)保id。
圖像翻譯方法的完備性
我認(rèn)為一個(gè)圖像翻譯方法要取得成功,需要能夠保證下面兩個(gè)一致性(必要性):
Content consistency(內(nèi)容一致性)
Domain consistency(論域一致性)
此外,我們也似乎也可以認(rèn)為,滿足這兩點(diǎn)的圖像翻譯方法是能work的(充分性)。
我把上述兩點(diǎn)稱(chēng)為圖像翻譯方法的完備性,換句話說(shuō),只要一個(gè)方法具備了上述兩個(gè)要求,它就應(yīng)該能work。關(guān)于這個(gè)完備性的詳細(xì)論述,我會(huì)在以后給出。
下面,我們來(lái)看一下上述幾種方法是如何達(dá)成這兩個(gè)一致性的。
內(nèi)容一致性
我把它們實(shí)現(xiàn)內(nèi)容一致性的手段列在下面的表格里了。
這里有兩點(diǎn)需要指出。
其一,有兩個(gè)方法(IcGAN和Face Age-cGAN)依靠cGAN的能力,學(xué)cGAN的逆映射來(lái)實(shí)現(xiàn)圖像換屬性,它們會(huì)有多個(gè)訓(xùn)練階段,不是端到端訓(xùn)練的方法。而cGAN訓(xùn)練的好壞,以及逆映射的好壞對(duì)實(shí)驗(yàn)結(jié)果影響會(huì)比較大,經(jīng)過(guò)幾個(gè)階段的訓(xùn)練,圖像的內(nèi)容損失會(huì)比較嚴(yán)重,實(shí)際中我們也可以觀察到 IcGAN 的實(shí)驗(yàn)效果比較差。Face Age-cGAN通過(guò)引入人臉識(shí)別系統(tǒng)識(shí)別結(jié)果相同的約束,能夠?qū)?nèi)容的編碼進(jìn)行優(yōu)化,可以起到一些緩解作用。
其二,DTN主要依靠TID loss來(lái)實(shí)現(xiàn)內(nèi)容的一致性,而編碼一般來(lái)說(shuō)是有損的,編碼相同只能在較大程度上保證內(nèi)容相同。從DTN的emoji和人臉互轉(zhuǎn)的實(shí)驗(yàn)我們也可以看出,emoji保id問(wèn)題堪憂,參看下圖。
論域一致性
論域一致性是指,翻譯后的圖像得是論域內(nèi)的圖像,也就是說(shuō),得有目標(biāo)論域的共有屬性。用GAN實(shí)現(xiàn)的方法,很自然的一個(gè)實(shí)現(xiàn)論域一致性的方法就是,通過(guò)discriminator判斷圖像是否屬于目標(biāo)論域。
上述幾種圖像翻譯的方法,它們實(shí)現(xiàn)論域一致性的手段可以分為兩種,參見(jiàn)下表。
此外,可以看到,F(xiàn)aderNets實(shí)現(xiàn)兩個(gè)一致性的方法都是剝離屬性和內(nèi)容,而實(shí)現(xiàn)剝離手段則是對(duì)抗訓(xùn)練。編碼層面的對(duì)抗訓(xùn)練我認(rèn)為博弈雙方不是勢(shì)均力敵,一方太容易贏得博弈,不難預(yù)料到它的訓(xùn)練會(huì)比較tricky,訓(xùn)練有效果應(yīng)該不難達(dá)成,要想得到好的結(jié)果是比較難的。目前還沒(méi)有看到能夠完美復(fù)現(xiàn)的代碼。文章的效果太好,好得甚至讓人懷疑。
最后的最后,放一個(gè)歌單,聽(tīng)說(shuō)聽(tīng)這個(gè)歌單煉丹會(huì)更快哦。
參考文獻(xiàn)
1. Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[J]. arXiv preprint arXiv:1611.07004, 2016.
2. Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[J]. arXiv preprint arXiv:1703.10593, 2017.
3. Yi Z, Zhang H, Gong P T. DualGAN: Unsupervised Dual Learning for Image-to-Image Translation[J]. arXiv preprint arXiv:1704.02510, 2017.
4. Kim T, Cha M, Kim H, et al. Learning to discover cross-domain relations with generative adversarial networks[J]. arXiv preprint arXiv:1703.05192, 2017.
5. Taigman Y, Polyak A, Wolf L. Unsupervised cross-domain image generation[J]. arXiv preprint arXiv:1611.02200, 2016.
6. Zhou S, Xiao T, Yang Y, et al. GeneGAN: Learning Object Transfiguration and Attribute Subspace from Unpaired Data[J]. arXiv preprint arXiv:1705.04932, 2017.
7. Lample G, Zeghidour N, Usunier N, et al. Fader Networks: Manipulating Images by Sliding Attributes[J]. arXiv preprint arXiv:1706.00409, 2017.
8. Brock A, Lim T, Ritchie J M, et al. Neural photo editing with introspective adversarial networks[J]. arXiv preprint arXiv:1609.07093, 2016.
9. Antipov G, Baccouche M, Dugelay J L. Face Aging With Conditional Generative Adversarial Networks[J]. arXiv preprint arXiv:1702.01983, 2017.
10. Perarnau G, van de Weijer J, Raducanu B, et al. Invertible Conditional GANs for image editing[J]. arXiv preprint arXiv:1611.06355, 2016.
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4637.html
摘要:在圖像上的應(yīng)用從目前的文獻(xiàn)來(lái)看,在圖像上的應(yīng)用主要是往圖像修改方向發(fā)展。涉及的圖像修改包括單圖像超分辨率交互式圖像生成圖像編輯圖像到圖像的翻譯等。單圖像超分辨率單圖像超分辨率任務(wù)就是給定單張低分辨率圖像,生成它的高分辨率圖像。 今天我們來(lái)聊一個(gè)輕松一些的話題——GAN的應(yīng)用。在此之前呢,先推薦大家去讀一下一篇新的文章LS-GAN(Loss-sensitive GAN)[1]。這個(gè)文章比WGA...
摘要:這篇就介紹利用生成式對(duì)抗網(wǎng)絡(luò)的兩個(gè)基本駕駛技能去除愛(ài)情動(dòng)作片中的馬賽克給愛(ài)情動(dòng)作片中的女孩穿衣服生成式模型上一篇用生成二維樣本的小例子中已經(jīng)簡(jiǎn)單介紹了,這篇再簡(jiǎn)要回顧一下生成式模型,算是補(bǔ)全一個(gè)來(lái)龍去脈。 作為一名久經(jīng)片場(chǎng)的老司機(jī),早就想寫(xiě)一些探討駕駛技術(shù)的文章。這篇就介紹利用生成式對(duì)抗網(wǎng)絡(luò)(GAN)的兩個(gè)基本駕駛技能:1) 去除(愛(ài)情)動(dòng)作片中的馬賽克2) 給(愛(ài)情)動(dòng)作片中的女孩穿(tu...
摘要:的研究興趣涵蓋大多數(shù)深度學(xué)習(xí)主題,特別是生成模型以及機(jī)器學(xué)習(xí)的安全和隱私。與以及教授一起造就了年始的深度學(xué)習(xí)復(fù)興。目前他是僅存的幾個(gè)仍然全身心投入在學(xué)術(shù)界的深度學(xué)習(xí)教授之一。 Andrej Karpathy特斯拉 AI 主管Andrej Karpathy 擁有斯坦福大學(xué)計(jì)算機(jī)視覺(jué)博士學(xué)位,讀博期間師從現(xiàn)任 Google AI 首席科學(xué)家李飛飛,研究卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理上的應(yīng)...
閱讀 2126·2021-11-23 09:51
閱讀 3712·2021-10-20 13:49
閱讀 1718·2021-09-06 15:13
閱讀 1828·2021-09-06 15:02
閱讀 3181·2021-09-02 15:11
閱讀 899·2019-08-29 15:37
閱讀 1744·2019-08-29 13:24
閱讀 2283·2019-08-29 11:28