摘要:第一列和第六列顯示輸入圖像,其余列是產(chǎn)生的圖像。然而,現(xiàn)有的模型在多域圖像轉(zhuǎn)換任務(wù)中效率低下。該圖表示連接多個(gè)域的拓?fù)鋱D。在訓(xùn)練過程中,隨機(jī)生成目標(biāo)域標(biāo)簽并訓(xùn)練模型,以便靈活地將輸入圖像轉(zhuǎn)換到目標(biāo)域。
圖像到圖像轉(zhuǎn)化的任務(wù)是將一個(gè)給定圖像的特定方面改變到另一個(gè)方面,例如,將一個(gè)人的面部表情從微笑到皺眉改變(見圖1)。自從生成對抗網(wǎng)絡(luò)(GANs)的引入,這個(gè)任務(wù)經(jīng)歷了很大的發(fā)展,從改變發(fā)色,改變邊緣圖以重建照片,到改變風(fēng)景圖像的季節(jié)等。
圖1. 通過從RaFD數(shù)據(jù)集學(xué)習(xí)轉(zhuǎn)移知識,從而應(yīng)用到CelebA圖像轉(zhuǎn)化的多域的圖像到圖像轉(zhuǎn)化結(jié)果。第一列和第六列顯示輸入圖像,其余列是產(chǎn)生的StarGAN圖像。注意,圖像是由一個(gè)單一模型網(wǎng)絡(luò)生成的,面部表情標(biāo)簽如生氣、高興、恐懼是從RaFD學(xué)習(xí)的,而不是來自CelebA。
給定來自兩個(gè)不同域的訓(xùn)練數(shù)據(jù),這些模型學(xué)習(xí)如何將圖像從一個(gè)域轉(zhuǎn)換到另一個(gè)域。文章中將術(shù)語表示為圖像中固有的特征,如頭發(fā)顏色、性別或年齡,屬性值作為屬性的特定值,例如黑色/金色/棕色的頭發(fā)顏色,或性別的男性/女性等。我們進(jìn)一步將具有一系列相同屬性值的圖像設(shè)為一個(gè)域。例如,女性形象代表一個(gè)域,而男性代表另一個(gè)域。
幾個(gè)圖像數(shù)據(jù)集帶有許多標(biāo)記屬性。例如,在CelebA數(shù)據(jù)集包含40個(gè)標(biāo)簽的面部特征,如頭發(fā)的顏色、性別、年齡;RaFD數(shù)據(jù)集有8個(gè)表示面部表情的標(biāo)簽,如“快樂”,“憤怒”和“悲傷”。我們可以根據(jù)這些屬性設(shè)置執(zhí)行更有趣的任務(wù),即多域圖像到圖像的轉(zhuǎn)換,我們根據(jù)多個(gè)域的屬性來改變圖像。圖1中,前5列展示了一個(gè)CelebA圖像可以根據(jù)任何四個(gè)域進(jìn)行轉(zhuǎn)化,“金發(fā)”、“性別”、“年齡”、“蒼白的皮膚”。我們可以進(jìn)一步延伸到從不同的數(shù)據(jù)集進(jìn)行多個(gè)域的訓(xùn)練,如共同訓(xùn)練的CelebA和RaFD圖像來改變CelebA圖像的面部表情,通過訓(xùn)練RaFD數(shù)據(jù)提取特征來作用于CelebA圖像,如在圖1的最右邊的列。
然而,現(xiàn)有的模型在多域圖像轉(zhuǎn)換任務(wù)中效率低下。這些模型的低效率是因?yàn)樵趯W(xué)習(xí)K域的時(shí)候,需要訓(xùn)練K(K?1)個(gè)生成器。圖2說明了如何在四個(gè)不同的域之間轉(zhuǎn)換圖像的時(shí)候,訓(xùn)練十二個(gè)不同的生成器的網(wǎng)絡(luò)。即使它們可以從所有域圖像學(xué)習(xí)全局特征,如形狀特征學(xué)習(xí),這種模型也是無效的,因?yàn)槊總€(gè)生成器不能充分利用整個(gè)訓(xùn)練數(shù)據(jù),只能從K學(xué)習(xí)的兩個(gè)領(lǐng)域。未能充分利用訓(xùn)練數(shù)據(jù)很可能會(huì)限制生成圖像的質(zhì)量。此外,它們不能聯(lián)合訓(xùn)練來自不同域的數(shù)據(jù)集,因?yàn)槊總€(gè)數(shù)據(jù)集只有部分標(biāo)記,本文在3.2章進(jìn)一步討論。
圖2. 我們的StarGAN模型與其他跨域模型的比較。(a)為處理多個(gè)域,應(yīng)該在每一對域都建立跨域模型。(b)StarGAN用單個(gè)發(fā)生器學(xué)習(xí)多域之間的映射。該圖表示連接多個(gè)域的拓?fù)鋱D。
為解決這些問題我們提出了StarGAN,它是生成對抗網(wǎng)絡(luò),能夠?qū)W習(xí)多個(gè)域之間的映射。如圖2(b)所示,文章中提出的模型接受多個(gè)域的訓(xùn)練數(shù)據(jù),并且只使用一個(gè)生成器學(xué)習(xí)所有可用域之間的映射。這個(gè)想法是非常簡單的。其模型不是學(xué)習(xí)固定的圖像轉(zhuǎn)化(例如,從黑發(fā)到金發(fā)),而是輸入圖像和域信息,學(xué)習(xí)如何靈活地將輸入圖像轉(zhuǎn)換到相應(yīng)的域中。文章中使用一個(gè)標(biāo)簽(二進(jìn)制或one hot向量)代表域信息。在訓(xùn)練過程中,隨機(jī)生成目標(biāo)域標(biāo)簽并訓(xùn)練模型,以便靈活地將輸入圖像轉(zhuǎn)換到目標(biāo)域。通過這樣做,可以控制域標(biāo)簽并在測試階段將圖像轉(zhuǎn)換成任何所需的域。
本文還引入了一種簡單而有效的方法,通過將掩碼向量添加到域標(biāo)簽,使不同數(shù)據(jù)集的域之間進(jìn)行聯(lián)合訓(xùn)練。文章中所提出的方法使模型可以忽略未知的標(biāo)簽,并專注于有標(biāo)簽的特定數(shù)據(jù)集。在這種方式下,此模型對任務(wù)能獲得良好的效果,如利用從RaFD數(shù)據(jù)集學(xué)到的特征來在CelebA圖像中合成表情,如圖1的最右邊的列。據(jù)本文中提及,這篇工作是第一個(gè)成功地完成跨不同數(shù)據(jù)集的多域圖像轉(zhuǎn)化。
總的來說,本文的貢獻(xiàn)如下:
提出了StarGAN,生成一個(gè)新的對抗網(wǎng)絡(luò),只使用一個(gè)單一的發(fā)生器和辨別器實(shí)現(xiàn)多個(gè)域之間的映射,有效地從所有域的圖像進(jìn)行訓(xùn)練;
展示了如何在多個(gè)數(shù)據(jù)集之間學(xué)習(xí)多域圖像轉(zhuǎn)化,并利用掩碼向量的方法使StarGAN控制所有可用的域標(biāo)簽。
提供定性和定量的結(jié)果,對面部表情合成任務(wù)和面部屬性傳遞任務(wù)使用StarGAN,相比baseline模型顯示出它的優(yōu)越性。
?
原則上,文中提出的模型可以應(yīng)用于任何其他類型的域之間的轉(zhuǎn)換問題,例如,風(fēng)格轉(zhuǎn)換(style transfer),這是未來的工作方向之一。
模型簡介
在單一數(shù)據(jù)集上的訓(xùn)練
總得來看,StarGAN包括兩個(gè)模塊,一個(gè)鑒別器D和一個(gè)生成器G.(a)D學(xué)習(xí)如何區(qū)分真實(shí)圖像和偽造圖像,并將真實(shí)圖像分類到相應(yīng)領(lǐng)域。 (b)G同時(shí)輸入圖像和目標(biāo)域的標(biāo)簽并生成假圖像,在輸入時(shí)目標(biāo)域標(biāo)簽被復(fù)制并與輸入圖像拼接在一塊。 (c)G嘗試從給定原始域標(biāo)簽的假圖像重建原始圖像。 (d)G試圖生成與真實(shí)圖像不可區(qū)分的圖像同時(shí)又很容易被目標(biāo)域D所區(qū)分出來。
在多數(shù)據(jù)集上的訓(xùn)練
StarGAN同時(shí)在CelebA和RaFD兩個(gè)數(shù)據(jù)機(jī)上進(jìn)行培訓(xùn)的概述。 (a)?(d)顯示了使用CelebA的訓(xùn)練過程,(e)?(h)顯示了使用RaFD的訓(xùn)練過程。 (a),(e)鑒別器D學(xué)習(xí)如何區(qū)分真實(shí)圖像和偽造圖像,并僅將已知標(biāo)簽的分類誤差最小化。 (b),(c),(f),(g)當(dāng)掩碼向量(紫色)為[1,0]時(shí),生成器G學(xué)習(xí)專注于CelebA標(biāo)簽(黃色),而忽略RaFD標(biāo)簽(綠色)來執(zhí)行圖像到圖像的轉(zhuǎn)換,反之亦然,當(dāng)掩碼矢量是[0,1]時(shí)。 (d),(h)G嘗試生成與真實(shí)圖像無法區(qū)分的圖像,同時(shí)圖像可以被D分類可為目標(biāo)域。
實(shí)驗(yàn)結(jié)果
在明星臉上的面部屬性遷移
這些圖片是由StarGAN在CelebA 數(shù)據(jù)集上訓(xùn)練后生成的。
在RaFD人臉數(shù)據(jù)集上的表情合成
這些圖片是由StarGAN在RaFD人臉數(shù)據(jù)集上訓(xùn)練后生成的。
在明星臉上的表情合成
這些圖片是由StarGAN同時(shí)在RaFD和CelebA數(shù)據(jù)集上訓(xùn)練后生成的。?
論文:StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation
摘要
最近的研究表明,在兩個(gè)領(lǐng)域之間圖像到圖像轉(zhuǎn)化的研究領(lǐng)域取得了顯著的成功。然而,現(xiàn)有的方法在處理兩個(gè)以上圖像域時(shí),可伸縮性和魯棒性有限,因此,要為每一對映像域都需要獨(dú)立構(gòu)建不同的模型。
為了解決這個(gè)問題,我們提出了一個(gè)新的可擴(kuò)展的StarGAN,可以利用同一個(gè)模型實(shí)現(xiàn)多個(gè)域圖像到圖像轉(zhuǎn)化。這樣一個(gè)統(tǒng)一的StarGAN模型體系允許在一個(gè)單一的網(wǎng)絡(luò)內(nèi)同時(shí)訓(xùn)練不同域的多個(gè)數(shù)據(jù)集。這使得StarGAN與現(xiàn)有的圖像轉(zhuǎn)化模型相比,StarGAN更加靈活,能將輸入圖像轉(zhuǎn)化到任意所需要的目標(biāo)域圖像。實(shí)驗(yàn)證明,我們的方法在面部屬性轉(zhuǎn)移和面部表情合成任務(wù)上的有效性。
Github 代碼
PyTorch代碼實(shí)現(xiàn)的《StarGAN: UnifiedGenerative Adversarial Networks for Multi-Domain Image-to-Image Translation》,StarGAN可以很靈活的將一副圖片轉(zhuǎn)換成任何你想要的目標(biāo)風(fēng)格,這一切只需要一個(gè)簡單的生成器和一個(gè)判別器。
作者
Yunjey Choi ?https://github.com/yunjey,?
Minje Choi ?https://github.com/mjc92,?
Munyoung Kim ?https://www.facebook.com/munyoung.kim.1291,?
Jung-Woo Ha ?https://www.facebook.com/jungwoo.ha.921,?
Sung Kim ?https://www.cse.ust.hk/~hunkim/,?
Jaegul Choo ?https://sites.google.com/site/jaegulchoo/
Python代碼依賴包
Python 2.7 or 3.5+ https://www.continuum.io/downloads
PyTorch 0.2.0 http://pytorch.org/
TensorFlow 1.3+ https://www.tensorflow.org/ ?
如何開始運(yùn)行代碼
1. 克隆代碼倉庫 ?
bash
$ git clonehttps://github.com/yunjey/StarGAN.git
$ cd StarGAN/
2. 下載數(shù)據(jù)集
(i) CelebA數(shù)據(jù)集
bash
$ bashdownload.sh
(ii) RaFD數(shù)據(jù)集
由于RaFD并不是一個(gè)公開的數(shù)據(jù)集,所以你必須先在Radboud Faces Database website (http://www.socsci.ru.nl:8180/RaFD2/RaFD?p=main)這個(gè)網(wǎng)站上申請使用權(quán)限。然后你需要想這里描述https://github.com/yunjey/StarGAN/blob/master/png/RaFD.md的那樣,來創(chuàng)建相應(yīng)的目錄結(jié)構(gòu)。
3. 訓(xùn)練 StarGAN
(i) 使用CelebA訓(xùn)練
bash
$ python main.py--mode="train" --dataset="CelebA" --cdim=5 --imagesize=128 --numepochs=20--numepochsdecay=10
(ii) 使用RaFD訓(xùn)練
bash
$ python main.py--mode="train" --dataset="RaFD" --cdim=8 --imagesize=128 --numepochs=200--numepochsdecay=100
(iii) 同時(shí)使用CelebA和RaFD訓(xùn)練
bash
$ python main.py--mode="train" --dataset="Both" --cdim=5 --c2dim=8 --imagesize=256--numiters=200000 --numitersdecay=100000
4. StarGAN測試
(i) 在明星臉上的面部屬性遷移
bash
$ python main.py--mode="test" --dataset="CelebA" --cdim=5 --imagesize=256 --testmodel=201000
(ii) 在RaFD人臉數(shù)據(jù)集上的表情合成
bash
$ python main.py--mode="test" --dataset="RaFD" --cdim=8 --imagesize=256 --testmodel=200200
(iii) 在明星臉上的表情合成
bash
$ python main.py--mode="test" --dataset="Both" --cdim=5 --c2dim=8 --imagesize=256--testmodel=200000
參考文獻(xiàn)
論文:
StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation
arXiv: https://arxiv.org/abs/1711.09020
github: https://github.com/yunjey/StarGAN
video: https://v.qq.com/x/page/t0510kq8mya.html
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4687.html
摘要:生成你的明星臉介紹,叫做生成對抗網(wǎng)絡(luò)。改進(jìn)損失函數(shù)為了訓(xùn)練過程穩(wěn)定,生成高質(zhì)量的圖像,論文中采用自定義梯度懲罰來代替對抗誤差損失其中表示真實(shí)和生成圖像之間均勻采樣的直線,試驗(yàn)時(shí)。 StarGAN——生成你的明星臉 1 GAN 介紹 GAN,叫做生成對抗網(wǎng)絡(luò) (Generative Adversarial Network) 。其基本原理是生成器網(wǎng)絡(luò) G(Generator) 和判別器網(wǎng)...
摘要:但年在機(jī)器學(xué)習(xí)的較高級大會(huì)上,蘋果團(tuán)隊(duì)的負(fù)責(zé)人宣布,公司已經(jīng)允許自己的研發(fā)人員對外公布論文成果。蘋果第一篇論文一經(jīng)投放,便在年月日,斬獲較佳論文。這項(xiàng)技術(shù)由的和開發(fā),使用了生成對抗網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法。 GANs「對抗生成網(wǎng)絡(luò)之父」Ian Goodfellow 在 ICCV 2017 上的 tutorial 演講是聊他的代表作生成對抗網(wǎng)絡(luò)(GAN/Generative Adversarial ...
摘要:此前有工作將像素?fù)p失和生成對抗損失整合為一種新的聯(lián)合損失函數(shù),訓(xùn)練圖像轉(zhuǎn)換模型產(chǎn)生分辨率更清的結(jié)果。一般來說,結(jié)合使用多種損失函數(shù)的效果通常比單獨(dú)使用一種要好。結(jié)合感知對抗損失和生成對抗損失,提出了感知對抗網(wǎng)絡(luò)這一框架,處理圖像轉(zhuǎn)換任務(wù)。 近來,卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,結(jié)合對抗生成網(wǎng)絡(luò)(GAN)等嶄新的方法,為圖像轉(zhuǎn)換任務(wù)帶來了很大的提升,包括圖像超分辨率、去噪、語義分割,還有自動(dòng)補(bǔ)全,都有亮眼...
摘要:本篇綜述的重點(diǎn)是回顧當(dāng)前利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí)的研究及其應(yīng)用。這篇綜述論文的貢獻(xiàn)如下定義了深度遷移學(xué)習(xí),并首次將其分為四類。這就是一個(gè)深度遷移學(xué)習(xí)任務(wù),其中是一個(gè)表示深度神經(jīng)網(wǎng)絡(luò)的非線性函數(shù)。 論文:A Survey on Deep Transfer Learning論文地址:https://arxiv.org/pdf/1808.01974v1.pdf摘要:作為一種新的分類方法,深度學(xué)...
閱讀 2653·2021-11-11 16:55
閱讀 691·2021-09-04 16:40
閱讀 3090·2019-08-30 15:54
閱讀 2629·2019-08-30 15:54
閱讀 2416·2019-08-30 15:46
閱讀 412·2019-08-30 15:43
閱讀 3239·2019-08-30 11:11
閱讀 2992·2019-08-28 18:17