摘要:在這項(xiàng)工作中,我們提出了自注意力生成對(duì)抗網(wǎng)絡(luò),它將自注意力機(jī)制引入到卷積中。越高,表示圖像質(zhì)量越好。表將所提出的與較先進(jìn)模型進(jìn)行比較,任務(wù)是上的類別條件圖像生成。
圖像合成(Image synthesis)是計(jì)算機(jī)視覺(jué)中的一個(gè)重要問(wèn)題。隨著生成對(duì)抗網(wǎng)絡(luò)(GAN)的出現(xiàn),這個(gè)方向取得了顯著進(jìn)展。基于深度卷積網(wǎng)絡(luò)的GAN尤其成功。但是,通過(guò)仔細(xì)檢查這些模型生成的樣本,可以觀察到,在ImageNet這類的有許多圖像類別的數(shù)據(jù)集上訓(xùn)練時(shí),卷積GAN合成的圖像不盡如人意。
針對(duì)這個(gè)問(wèn)題,谷歌大腦的Ian Goodfellow和Augustus Odena,以及羅格斯大學(xué)的Han Zhang和Dimitris Metaxas等人在他們的研究中提出“自注意力生成對(duì)抗網(wǎng)絡(luò)”(SAGAN),將自注意力機(jī)制(self-attention mechanism)引入到卷積GAN中,作為卷積的補(bǔ)充,取得了最優(yōu)的結(jié)果。
摘要
在這篇論文中,我們提出自注意力生成對(duì)抗網(wǎng)絡(luò)( Self-Attention Generative Adversarial Network ,SAGAN)。SAGAN允許對(duì)圖像生成任務(wù)進(jìn)行注意力驅(qū)動(dòng)、長(zhǎng)相關(guān)性的建模。傳統(tǒng)的卷積GAN生成的高分辨率細(xì)節(jié)僅作為在低分辨率特征圖上的空間局部點(diǎn)的函數(shù)。在SAGAN中,可以使用來(lái)自所有特征位置的線索來(lái)生成細(xì)節(jié)。此外,鑒別器可以檢查圖像的遠(yuǎn)端部分的高度詳細(xì)的特征彼此一致。此外,最近的研究表明,生成器條件會(huì)影響GAN的性能。利用這些發(fā)現(xiàn),我們將譜歸一化到GAN生成器中,并發(fā)現(xiàn)這改進(jìn)了訓(xùn)練動(dòng)態(tài)。我們提出的SAGAN達(dá)到了state-of-the-art的結(jié)果,將Inception score從當(dāng)前較高的36.8提高到52.52,并且在具有挑戰(zhàn)性的ImageNet數(shù)據(jù)集上將Frechet Inception distance從27.62降低到18.65。注意力層的可視化表明,生成器利用與對(duì)象形狀相對(duì)應(yīng)的鄰域,而不是固定形狀的局部區(qū)域。
SAGAN:將自注意力機(jī)制引入GAN
盡管較先進(jìn)的ImageNet GAN模型 [17] 擅長(zhǎng)合成幾乎沒(méi)有結(jié)構(gòu)性限制的圖像類別(例如,海洋、天空和景觀類,它們的區(qū)別更多在于紋理而不是幾何結(jié)構(gòu)),但它無(wú)法捕獲在某些類別中經(jīng)常出現(xiàn)的幾何模式或結(jié)構(gòu)模式(例如,狗通常有逼真的皮毛紋理,但沒(méi)有明確區(qū)分的腳)。
一種可能的解釋是,以前的模型嚴(yán)重依賴于卷積來(lái)建模不同圖像區(qū)域之間的依賴關(guān)系。由于卷積運(yùn)算符具有一個(gè)局部感受域,所以在經(jīng)過(guò)幾個(gè)卷積層之后,只能處理長(zhǎng)距離的相關(guān)性。
由于各種原因,這可能會(huì)阻止學(xué)習(xí)長(zhǎng)相關(guān)性(long-term dependencies):小的模型可能無(wú)法表示它們,優(yōu)化算法可能無(wú)法發(fā)現(xiàn)參數(shù)值,這些參數(shù)值仔細(xì)協(xié)調(diào)多個(gè)層,以捕獲這些相關(guān)性,并且這些參數(shù)化在統(tǒng)計(jì)學(xué)上可能相當(dāng)脆弱,當(dāng)應(yīng)用于以前未見(jiàn)過(guò)的輸入時(shí)容易失敗。增加卷積核的大小可以提高網(wǎng)絡(luò)的表征能力,但這樣做也會(huì)失去利用局部卷積結(jié)構(gòu)獲得的計(jì)算和統(tǒng)計(jì)效率。
另一方面,自注意力(Self-attention)可以更好地平衡模型的長(zhǎng)相關(guān)性和計(jì)算與統(tǒng)計(jì)效率。self-attention模塊以所有位置的特征加權(quán)和來(lái)計(jì)算響應(yīng),其中權(quán)重(或attention vectors)只以很小的計(jì)算成本來(lái)計(jì)算。
圖 1:我們提出的SAGAN通過(guò)利用圖像遠(yuǎn)端部分的互補(bǔ)特征來(lái)生成圖像,而不是固定形狀的局部區(qū)域,從而可以生成一致的對(duì)象/場(chǎng)景。圖中每一行的第一個(gè)圖像顯示了帶顏色編碼點(diǎn)的五個(gè)代表性查詢位置。其他五個(gè)圖像是針對(duì)這些查詢位置的 attention maps,其中對(duì)應(yīng)的顏色編碼的箭頭概括了更受關(guān)注的區(qū)域。
在這項(xiàng)工作中,我們提出了自注意力生成對(duì)抗網(wǎng)絡(luò)(SAGAN),它將自注意力機(jī)制(self-attention mechanism)引入到卷積GAN中。自注意力模塊(self-attention module)是對(duì)卷積的補(bǔ)充,有助于模擬跨越圖像區(qū)域的長(zhǎng)距離、多層的依賴關(guān)系。通過(guò)self-attention,生成器可以繪制圖像,所繪制圖像中每個(gè)位置的精細(xì)細(xì)節(jié)都與圖像遠(yuǎn)端的精細(xì)細(xì)節(jié)充分協(xié)調(diào)。此外,鑒別器還可以更準(zhǔn)確地對(duì)全局圖像結(jié)構(gòu)執(zhí)行復(fù)雜的幾何約束。
圖2:所提出的self-attention機(jī)制。?表示矩陣乘法,在每一行上執(zhí)行softmax操作。
除了self-attention之外,我們還將最近關(guān)于網(wǎng)絡(luò)調(diào)節(jié)(network conditioning)的見(jiàn)解與GAN的性能結(jié)合起來(lái)。A. Odena等人的研究[18]表明,調(diào)節(jié)良好的生成器往往表現(xiàn)更好。我們建議使用以前僅應(yīng)用于鑒別器的譜歸一化技術(shù)(spectral normalization)來(lái)加強(qiáng)GAN生成器器的調(diào)節(jié)。
我們?cè)贗mageNet數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),以驗(yàn)證所提出的self-attention機(jī)制和穩(wěn)定技術(shù)的有效性。SAGAN在圖像合成方面的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)了state-of-the-art的表現(xiàn),將此前報(bào)告的較高Inception score從36.8提高到52.52,將Fréchet初始距離(Fréchet Inception distance,F(xiàn)ID)從27.62降低到18.65。attention層的可視化顯示,生成器利用與對(duì)象形狀相對(duì)應(yīng)的區(qū)域,而不是固定形狀的局部區(qū)域。
ImageNet上的圖像合成實(shí)驗(yàn)
為了評(píng)價(jià)所提出的方法,我們?cè)贚SVRC 2012 (ImageNet)上數(shù)據(jù)集進(jìn)行了大量的實(shí)驗(yàn)。首先,我們對(duì)評(píng)估所提出的兩種穩(wěn)定GAN訓(xùn)練的技術(shù)進(jìn)行有效性實(shí)驗(yàn)。其次,對(duì)所提出的self-attention mechanism進(jìn)行了研究。最后,將SAGAN與其他state-of-the-art的圖像生成方法進(jìn)行了比較。
評(píng)估指標(biāo)
我們使用Inception score(IS)和Fréchet初始距離(FID)進(jìn)行定量評(píng)估。Inception score越高,表示圖像質(zhì)量越好。 FID是一個(gè)更加基于規(guī)則和綜合性的指標(biāo),并且在評(píng)估生成的樣本的真實(shí)性和變異性方面已被證明與人類的評(píng)估更加一致。越低的FID值意味著合成數(shù)據(jù)分布與真實(shí)數(shù)據(jù)分布之間的距離更近。
圖3:基線模型與我們的模型的訓(xùn)練曲線,利用了我們提出的穩(wěn)定技術(shù)
表1:GAN的Self-Attention與Residual塊的比較。這些塊被添加到網(wǎng)絡(luò)的不同層。所有模型都經(jīng)過(guò)100萬(wàn)次迭代的訓(xùn)練,并報(bào)告較佳的Inception score(IS)和Fréchet初始距離(FID)。
圖4:基線模型和我們的模型隨機(jī)生成的128×128圖像樣本
圖5:attention maps的可視化。這些圖像都由SAGAN生成。
與state-of-the-art模型的比較
在ImageNet上,SAGAN與較先進(jìn)的GAN模型[19,17]進(jìn)行了比較。如表2所示,我們提出的SAGAN得到了Inception score和FID。Inception score方面,SAGAN將此前0較高的36.8提高到52.52;FID(18.65)也表明,SAGAN可以通過(guò)使用self-attention模塊對(duì)圖像區(qū)域之間的全局依賴關(guān)系進(jìn)行建模,從而更好地模擬原始圖像的分布。圖6展示了由SAGAN生成的一些示例圖像。
表2: 將所提出的SAGAN與較先進(jìn)GAN模型進(jìn)行比較,任務(wù)是ImageNet上的類別條件圖像生成。
圖6:SAGAN 生成的不同類別的128×128分辨率示例圖像。每行展示一個(gè)類別的示例。
總結(jié)
在本研究中,我們提出自注意力生成對(duì)抗網(wǎng)絡(luò)(SAGAN),它將self-attention機(jī)制引入到GAN的框架。 self-attention 模塊在建模長(zhǎng)相關(guān)性( long-range dependencies)方面很有效。另外,我們證明了應(yīng)用于生成器的譜歸一化可以穩(wěn)定GAN的訓(xùn)練,并且TTUR加速了正則化鑒別器的訓(xùn)練。SAGAN在ImageNet的分類條件圖像生成任務(wù)上達(dá)到較先進(jìn)的性能。
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4780.html
摘要:作者在論文中將這種新的譜歸一化方法與其他歸一化技術(shù),比如權(quán)重歸一化,權(quán)重削減等,和梯度懲罰等,做了比較,并通過(guò)實(shí)驗(yàn)表明,在沒(méi)有批量歸一化權(quán)重衰減和判別器特征匹配的情況下,譜歸一化改善生成的圖像質(zhì)量,效果比權(quán)重歸一化和梯度懲罰更好。 就在幾小時(shí)前,生成對(duì)抗網(wǎng)絡(luò)(GAN)的發(fā)明人Ian Goodfellow在Twitter上發(fā)文,激動(dòng)地推薦了一篇論文:Goodfellow表示,雖然GAN十分擅長(zhǎng)...
摘要:據(jù)報(bào)道,生成對(duì)抗網(wǎng)絡(luò)的創(chuàng)造者,前谷歌大腦著名科學(xué)家剛剛正式宣布加盟蘋果。他將在蘋果公司領(lǐng)導(dǎo)一個(gè)機(jī)器學(xué)習(xí)特殊項(xiàng)目組。在加盟蘋果后會(huì)帶來(lái)哪些新的技術(shù)突破或許我們很快就會(huì)看到了。 據(jù) CNBC 報(bào)道,生成對(duì)抗網(wǎng)絡(luò)(GAN)的創(chuàng)造者,前谷歌大腦著名科學(xué)家 Ian Goodfellow 剛剛正式宣布加盟蘋果。他將在蘋果公司領(lǐng)導(dǎo)一個(gè)「機(jī)器學(xué)習(xí)特殊項(xiàng)目組」。雖然蘋果此前已經(jīng)縮小了自動(dòng)駕駛汽車研究的規(guī)模,但...
摘要:自年提出生成對(duì)抗網(wǎng)絡(luò)的概念后,生成對(duì)抗網(wǎng)絡(luò)變成為了學(xué)術(shù)界的一個(gè)火熱的研究熱點(diǎn),更是稱之為過(guò)去十年間機(jī)器學(xué)習(xí)領(lǐng)域最讓人激動(dòng)的點(diǎn)子。 自2014年Ian Goodfellow提出生成對(duì)抗網(wǎng)絡(luò)(GAN)的概念后,生成對(duì)抗網(wǎng)絡(luò)變成為了學(xué)術(shù)界的一個(gè)火熱的研究熱點(diǎn),Yann LeCun更是稱之為過(guò)去十年間機(jī)器學(xué)習(xí)領(lǐng)域最讓人激動(dòng)的點(diǎn)子。生成對(duì)抗網(wǎng)絡(luò)的簡(jiǎn)單介紹如下,訓(xùn)練一個(gè)生成器(Generator,簡(jiǎn)稱G...
摘要:例如,即插即用生成網(wǎng)絡(luò)通過(guò)優(yōu)化結(jié)合了自動(dòng)編碼器損失,損失,和通過(guò)與訓(xùn)練的分類器定于的分類損失的目標(biāo)函數(shù),得到了較高水平的樣本。該論文中,作者提出了結(jié)合的原則性方法。 在機(jī)器學(xué)習(xí)研究領(lǐng)域,生成式對(duì)抗網(wǎng)絡(luò)(GAN)在學(xué)習(xí)生成模型方面占據(jù)著統(tǒng)治性的地位,在使用圖像數(shù)據(jù)進(jìn)行訓(xùn)練的時(shí)候,GAN能夠生成視覺(jué)上以假亂真的圖像樣本。但是這種靈活的算法也伴隨著優(yōu)化的不穩(wěn)定性,導(dǎo)致模式崩潰(mode colla...
摘要:論文可遷移性對(duì)抗樣本空間摘要對(duì)抗樣本是在正常的輸入樣本中故意添加細(xì)微的干擾,旨在測(cè)試時(shí)誤導(dǎo)機(jī)器學(xué)習(xí)模型。這種現(xiàn)象使得研究人員能夠利用對(duì)抗樣本攻擊部署的機(jī)器學(xué)習(xí)系統(tǒng)。 現(xiàn)在,卷積神經(jīng)網(wǎng)絡(luò)(CNN)識(shí)別圖像的能力已經(jīng)到了出神入化的地步,你可能知道在 ImageNet 競(jìng)賽中,神經(jīng)網(wǎng)絡(luò)對(duì)圖像識(shí)別的準(zhǔn)確率已經(jīng)超過(guò)了人。但同時(shí),另一種奇怪的情況也在發(fā)生。拿一張計(jì)算機(jī)已經(jīng)識(shí)別得比較準(zhǔn)確的圖像,稍作調(diào)整,...
閱讀 3501·2021-10-18 13:30
閱讀 2951·2021-10-09 09:44
閱讀 1971·2019-08-30 11:26
閱讀 2303·2019-08-29 13:17
閱讀 767·2019-08-29 12:17
閱讀 2255·2019-08-26 18:42
閱讀 480·2019-08-26 13:24
閱讀 2963·2019-08-26 11:39