摘要:中科院自動(dòng)化所,中科院大學(xué)和南昌大學(xué)的一項(xiàng)合作研究,提出了雙路徑,通過單一側(cè)面照片合成正面人臉圖像,取得了當(dāng)前較好的結(jié)果。研究人員指出,這些合成的圖像有可能用于人臉分析的任務(wù)?;謴?fù)的圖像的質(zhì)量嚴(yán)重依賴于訓(xùn)練過程中的先驗(yàn)或約束條件。
中科院自動(dòng)化所(CASIA),中科院大學(xué)和南昌大學(xué)的一項(xiàng)合作研究,提出了雙路徑 GAN(TP-GAN),通過單一側(cè)面照片合成正面人臉圖像,取得了當(dāng)前較好的結(jié)果。研究人員提出了一個(gè)像人類一樣能夠考慮整體和局部信息的 GAN 結(jié)構(gòu),合成的圖像非常逼真且很好地保留了身份特征,并且可以處理大量不同姿勢(shì)的照片。研究人員指出,這些合成的圖像有可能用于人臉分析的任務(wù)。
首先,讓我們來看上面這張圖,中間一欄是側(cè)面 90°照片,你能看出計(jì)算機(jī)根據(jù)側(cè)面照合成的正臉是左邊一欄,還是右邊一欄嗎?
答案將在文末揭曉。
作為補(bǔ)充信息,下面這張圖全部是計(jì)算機(jī)合成的,展示了從90°、75°和45°的輪廓的合成正面人臉視圖。
根據(jù)側(cè)面照片合成正面人臉一直是個(gè)難題,現(xiàn)在,由中科院自動(dòng)化所(CASIA)、中科院大學(xué)和南昌大學(xué)的 Rui Huang、Shu Zhang、Tianyu Li、Ran He 合作的一項(xiàng)研究,首次解決了這一個(gè)問題,他們受人類視覺識(shí)別過程啟發(fā),結(jié)合對(duì)抗生成網(wǎng)絡(luò)(GAN)的強(qiáng)大性能,提出了一個(gè)雙路徑 GAN(TP-GAN),能夠在關(guān)注整體結(jié)構(gòu)的同時(shí),處理人臉面部細(xì)節(jié),在不同的角度、光照條件都取得了很好的結(jié)果。不僅如此,這種方法還能夠處理大量不同姿勢(shì)的照片。
作者表示,他們這項(xiàng)工作是使用合成的人臉圖像進(jìn)行圖像識(shí)別任務(wù)的首次有效嘗試。
作者在論文中寫道,他們的這項(xiàng)工作主要貢獻(xiàn)在于三個(gè)方面:
1)提出了一個(gè)像人類一樣能夠考慮整體和局部信息的 GAN 結(jié)構(gòu),能夠根據(jù)單一的圖像合成正面人臉視圖,合成的圖像非常逼真且很好地保留了身份特征,而且可以應(yīng)對(duì)大量不同的姿勢(shì)。
2)將從數(shù)據(jù)分布(對(duì)抗訓(xùn)練)得來的先驗(yàn)知識(shí),和人臉領(lǐng)域知識(shí)(對(duì)稱性、身份保留損失)結(jié)合起來,將從三維物體投射到二維圖像空間時(shí)固有的缺失信息較精確地恢復(fù)了出來。
3)展示了一個(gè)“通過生成進(jìn)行識(shí)別”(recognition via generation)的框架的可能性,并且在大量不同姿勢(shì)下取得了目前較好的識(shí)別結(jié)果。?
真實(shí)應(yīng)用場(chǎng)景中,不同姿勢(shì)的識(shí)別沒有很好的解決方案
雖然計(jì)算機(jī)識(shí)別圖像已經(jīng)在多個(gè)基準(zhǔn)數(shù)據(jù)集中超越了人類,但真實(shí)應(yīng)用場(chǎng)景中,對(duì)于不同姿勢(shì)的識(shí)別問題仍然沒有得到很好地解決。
現(xiàn)有方法可以分為兩類,一類是采用手繪的(hand-crafted)特征或?qū)W習(xí)不同姿態(tài)的特征,另一類則是致力于在大量不同姿態(tài)的人臉中獲?。╮ecover)一個(gè)正面人臉視圖,然后用這個(gè)視圖進(jìn)行人臉識(shí)別。
但是,第一類方法由于要在不變和可識(shí)別之間做出權(quán)衡,往往無法有效處理大量不同的姿勢(shì)。
第二類方法,早期的嘗試是先將二維圖像與通用或有確切身份的3D模型對(duì)齊,然后利用三維幾何變換渲染正面人臉視圖。但是,這種方法遇到大量不同姿勢(shì)的圖像時(shí),紋理損失嚴(yán)重,性能也不好。
近來,有研究者提出了由數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法,讓系統(tǒng)在學(xué)習(xí)估計(jì)正面視圖的同時(shí),分辨身份和姿勢(shì)表征。雖然結(jié)果喜人,但合成的圖像在細(xì)節(jié)方面有所欠缺,再一次地,這種方法也無法很好應(yīng)對(duì)大量不同的姿勢(shì),因此合成的圖像也無法用于法醫(yī)取證或?qū)傩怨烙?jì)。
更重要的是,從優(yōu)化的角度看,從觀察到的不完全側(cè)面臉部恢復(fù)正面視圖,本身就是一個(gè)不合理而且也沒有很好定義的問題?;謴?fù)的圖像的質(zhì)量嚴(yán)重依賴于訓(xùn)練過程中的先驗(yàn)或約束條件。
以往的方法通常采用配對(duì)監(jiān)督學(xué)習(xí)的方式(pairwise supervision),極少在訓(xùn)練過程中引入約束條件(constraints),因此,才導(dǎo)致合成的圖像模糊不清。
TP-GAN:受人類視覺啟發(fā),結(jié)合 GAN 強(qiáng)大的性能
當(dāng)人類在進(jìn)行視覺合成的時(shí)候,我們首先是通過觀察到的側(cè)臉,在以往的經(jīng)驗(yàn)/知識(shí)基礎(chǔ)上,推測(cè)出整張臉的結(jié)構(gòu)(或草圖)。然后,我們會(huì)將注意力轉(zhuǎn)向臉部的細(xì)節(jié),比如眼睛、鼻子、嘴唇,將這些細(xì)節(jié)在剛才那張草圖上“填滿”。
受此啟發(fā),作者提出了一個(gè)有兩條路徑的深度架構(gòu)(TP-GAN),用于正面人臉圖像合成。這兩條路徑,一條專注于推理全局結(jié)構(gòu),另一條則推理局部的紋理,分別得到兩個(gè)特征地圖。這兩個(gè)特征圖會(huì)融合在一起,用于接下來的最終合成。
TP-GAN總結(jié)構(gòu)示意圖。生成器包含兩個(gè)路徑,一個(gè)處理全局信息,一個(gè)處理局部變換。判別器在合成的正面(SF)視圖和真實(shí)相片(GT)。
不僅如此,作者還將正面人臉分布的信息并入了一個(gè)生成對(duì)抗網(wǎng)絡(luò)(GAN),由此對(duì)恢復(fù)過程進(jìn)行了很好的約束。
GAN 在二維數(shù)據(jù)分布建模方面的卓越性能(capacity)極大地改善了很多不合理的低級(jí)視覺問題,比如超分辨率和修復(fù)(inpainting)。
組合多種 Loss,合成缺失部分,保留面部突出特征?
作者還根據(jù)人臉是對(duì)稱結(jié)構(gòu)這一點(diǎn),提出了一個(gè)對(duì)稱性損失(symmetry loss),用于補(bǔ)全被遮擋住的部分。
困難場(chǎng)景。面部特征,包括胡須、眼鏡,TP-GAN 都保留了下來。最右邊一欄,上面那張圖將臉頰恢復(fù)了出來,下面那張圖則是側(cè)面看不見額頭,但 TP-GAN 成功地將額頭恢復(fù)了出來。
為了忠實(shí)地保留一個(gè)人臉部最突出的特征,作者在壓縮特征空間中除了像素級(jí)別的 L1 loss,還使用了一個(gè)感知損失(perceptual loss)。
最后,關(guān)鍵一環(huán),將身份保留損失(identity preserving loss)整合進(jìn)來,實(shí)現(xiàn)忠實(shí)的正面臉部合成,圖像質(zhì)量得到大幅提升。
TP-GAN 根據(jù)不同姿勢(shì)合成的結(jié)果。從左到右:90°、75°、45°、60°、30°和 15°。最后一欄是真實(shí)相片。
在不同的光線條件下合成的結(jié)果。上面一行是合成結(jié)果,下面一行是原始照片。
作者指出,這些圖像有可能用于人臉分析的任務(wù)。
論文 | 超越臉部旋轉(zhuǎn):使用整體和局部感知 GAN 生成逼真、保留特征的正面人臉圖像
使用單一臉部圖像合成逼真的正面臉部視圖在人臉識(shí)別領(lǐng)域中有著廣泛的應(yīng)用。盡管此前有研究試圖從大量面部數(shù)據(jù)中尋求解決方案,也即數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法,但這個(gè)問題仍然具有挑戰(zhàn)性,因?yàn)樗举|(zhì)上是個(gè)不合理的問題(ill-posed)。
本文提出了雙通道生成對(duì)抗網(wǎng)絡(luò)(Two-Pathway Generative Adversarial Network,TP-GAN),通過同時(shí)感知全局結(jié)構(gòu)和局部細(xì)節(jié),合成逼真的正面人臉視圖。
除了常用的全局編碼器-解碼器網(wǎng)絡(luò)之外,論文還提出了4個(gè)定位標(biāo)記的補(bǔ)丁網(wǎng)絡(luò)(landmark located patch networks)處理局部紋理。除了全新的架構(gòu),我們將這個(gè)不合理的問題進(jìn)行了很好的轉(zhuǎn)化,引入了對(duì)抗性損失(adversarial loss)、對(duì)稱性損失(symmetry loss)和身份保留損失(identity preserving loss)的組合。這一損失的組合能夠利用正面臉部的分布和預(yù)訓(xùn)練識(shí)別深度臉部模型(pre-trained discriminative deep face models),指導(dǎo)身份保留推理從正面臉部視圖合成側(cè)面照。不同于以往的深度學(xué)習(xí)模型主要依靠中間特征用于識(shí)別的方法,我們的方法直接利用合成的、保留身份的圖像用于下游任務(wù),比如人臉識(shí)別和歸因估計(jì)。實(shí)驗(yàn)結(jié)果表明,我們的方法不僅在視覺上令人信服,也在多種人臉識(shí)別中超越了現(xiàn)有較佳方法。
對(duì)了,還有一開始問題的答案:左邊一欄是 TP-GAN 合成的結(jié)果。你答對(duì)了嗎?
論文地址:https://arxiv.org/pdf/1704.04086.pdf
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4525.html
摘要:實(shí)現(xiàn)這一應(yīng)用的基本思想方法是將圖像的每一列用向量來表示,計(jì)算每一個(gè)的平均值,從而得到一個(gè)向量。標(biāo)準(zhǔn)加強(qiáng)學(xué)習(xí)模型通常要求建立一個(gè)獎(jiǎng)勵(lì)函數(shù),用于向代理機(jī)器反饋符合預(yù)期的行為。來源更多信息自學(xué)成才讓好奇驅(qū)動(dòng)計(jì)算機(jī)學(xué)習(xí)在很多 還記得《射雕英雄傳》中老頑童發(fā)明的左右互搏術(shù)嗎??表面上看,左手與右手互為敵手,斗得不可開交。實(shí)際上,老頑童卻憑借此練就了一門絕世武功。?這樣的故事似乎只能發(fā)生在小說中。然而,...
摘要:一段時(shí)間以來,我一直在嘗試使用生成神經(jīng)網(wǎng)絡(luò)制作人物肖像。生成圖像的質(zhì)量與低分辨率輸出實(shí)現(xiàn)密切相關(guān)。在第一階段,根據(jù)給定描述生成相對(duì)原始的形狀和基本的色彩,得出低分辨圖像。使用生成的圖像比現(xiàn)有方法更加合理逼真。 一段時(shí)間以來,我一直在嘗試使用生成神經(jīng)網(wǎng)絡(luò)制作人物肖像。早期試驗(yàn)基于類似 Deep Dream 的方法,但最近我開始將精力集中在 GAN 上面。當(dāng)然,無論在什么時(shí)候,高精度和較精確的細(xì)...
摘要:據(jù)報(bào)道,生成對(duì)抗網(wǎng)絡(luò)的創(chuàng)造者,前谷歌大腦著名科學(xué)家剛剛正式宣布加盟蘋果。他將在蘋果公司領(lǐng)導(dǎo)一個(gè)機(jī)器學(xué)習(xí)特殊項(xiàng)目組。在加盟蘋果后會(huì)帶來哪些新的技術(shù)突破或許我們很快就會(huì)看到了。 據(jù) CNBC 報(bào)道,生成對(duì)抗網(wǎng)絡(luò)(GAN)的創(chuàng)造者,前谷歌大腦著名科學(xué)家 Ian Goodfellow 剛剛正式宣布加盟蘋果。他將在蘋果公司領(lǐng)導(dǎo)一個(gè)「機(jī)器學(xué)習(xí)特殊項(xiàng)目組」。雖然蘋果此前已經(jīng)縮小了自動(dòng)駕駛汽車研究的規(guī)模,但...
摘要:作者在論文中將這種新的譜歸一化方法與其他歸一化技術(shù),比如權(quán)重歸一化,權(quán)重削減等,和梯度懲罰等,做了比較,并通過實(shí)驗(yàn)表明,在沒有批量歸一化權(quán)重衰減和判別器特征匹配的情況下,譜歸一化改善生成的圖像質(zhì)量,效果比權(quán)重歸一化和梯度懲罰更好。 就在幾小時(shí)前,生成對(duì)抗網(wǎng)絡(luò)(GAN)的發(fā)明人Ian Goodfellow在Twitter上發(fā)文,激動(dòng)地推薦了一篇論文:Goodfellow表示,雖然GAN十分擅長...
摘要:該研究成果由韓國團(tuán)隊(duì)發(fā)表于論文地址訓(xùn)練數(shù)據(jù)恰當(dāng)?shù)挠?xùn)練數(shù)據(jù)有助于提高網(wǎng)絡(luò)訓(xùn)練性能。在將損失函數(shù)應(yīng)用于輸入圖像之前,用輸入圖像替換了掩模外部的圖像的剩余部分??傮w損失函數(shù)如下其中,發(fā)生器用進(jìn)行訓(xùn)練,鑒別器用進(jìn)行訓(xùn)練。 為一個(gè)設(shè)計(jì)師,是否整天因?yàn)榉爆嵖菰锏男迗D工作不勝其煩?現(xiàn)在,一款基于GAN的AI修圖大師可以將你從這類工作中解放出來。修輪廓、改表情、生發(fā)、加耳環(huán)、去眼鏡、補(bǔ)殘圖,你能想到的它都能...
閱讀 2282·2019-08-30 15:54
閱讀 2003·2019-08-30 13:49
閱讀 702·2019-08-29 18:44
閱讀 850·2019-08-29 18:39
閱讀 1133·2019-08-29 15:40
閱讀 1557·2019-08-29 12:56
閱讀 3173·2019-08-26 11:39
閱讀 3125·2019-08-26 11:37