Ian Goodfellow提出自注意力GAN，ImageNet圖像合成獲最優(yōu)結(jié)果

Harpsichord1207 發(fā)布于2019-04-25 18:27 / 1383人閱讀

摘要：在這項(xiàng)工作中，我們提出了自注意力生成對(duì)抗網(wǎng)絡(luò)，它將自注意力機(jī)制引入到卷積中。越高，表示圖像質(zhì)量越好。表將所提出的與較先進(jìn)模型進(jìn)行比較，任務(wù)是上的類別條件圖像生成。

圖像合成（Image synthesis）是計(jì)算機(jī)視覺(jué)中的一個(gè)重要問(wèn)題。隨著生成對(duì)抗網(wǎng)絡(luò)（GAN）的出現(xiàn)，這個(gè)方向取得了顯著進(jìn)展。基于深度卷積網(wǎng)絡(luò)的GAN尤其成功。但是，通過(guò)仔細(xì)檢查這些模型生成的樣本，可以觀察到，在ImageNet這類的有許多圖像類別的數(shù)據(jù)集上訓(xùn)練時(shí)，卷積GAN合成的圖像不盡如人意。

針對(duì)這個(gè)問(wèn)題，谷歌大腦的Ian Goodfellow和Augustus Odena，以及羅格斯大學(xué)的Han Zhang和Dimitris Metaxas等人在他們的研究中提出“自注意力生成對(duì)抗網(wǎng)絡(luò)”（SAGAN），將自注意力機(jī)制（self-attention mechanism）引入到卷積GAN中，作為卷積的補(bǔ)充，取得了最優(yōu)的結(jié)果。

摘要

在這篇論文中，我們提出自注意力生成對(duì)抗網(wǎng)絡(luò)（ Self-Attention Generative Adversarial Network ，SAGAN）。SAGAN允許對(duì)圖像生成任務(wù)進(jìn)行注意力驅(qū)動(dòng)、長(zhǎng)相關(guān)性的建模。傳統(tǒng)的卷積GAN生成的高分辨率細(xì)節(jié)僅作為在低分辨率特征圖上的空間局部點(diǎn)的函數(shù)。在SAGAN中，可以使用來(lái)自所有特征位置的線索來(lái)生成細(xì)節(jié)。此外，鑒別器可以檢查圖像的遠(yuǎn)端部分的高度詳細(xì)的特征彼此一致。此外，最近的研究表明，生成器條件會(huì)影響GAN的性能。利用這些發(fā)現(xiàn)，我們將譜歸一化到GAN生成器中，并發(fā)現(xiàn)這改進(jìn)了訓(xùn)練動(dòng)態(tài)。我們提出的SAGAN達(dá)到了state-of-the-art的結(jié)果，將Inception score從當(dāng)前較高的36.8提高到52.52，并且在具有挑戰(zhàn)性的ImageNet數(shù)據(jù)集上將Frechet Inception distance從27.62降低到18.65。注意力層的可視化表明，生成器利用與對(duì)象形狀相對(duì)應(yīng)的鄰域，而不是固定形狀的局部區(qū)域。

SAGAN：將自注意力機(jī)制引入GAN

盡管較先進(jìn)的ImageNet GAN模型 [17] 擅長(zhǎng)合成幾乎沒(méi)有結(jié)構(gòu)性限制的圖像類別（例如，海洋、天空和景觀類，它們的區(qū)別更多在于紋理而不是幾何結(jié)構(gòu)），但它無(wú)法捕獲在某些類別中經(jīng)常出現(xiàn)的幾何模式或結(jié)構(gòu)模式（例如，狗通常有逼真的皮毛紋理，但沒(méi)有明確區(qū)分的腳）。

一種可能的解釋是，以前的模型嚴(yán)重依賴于卷積來(lái)建模不同圖像區(qū)域之間的依賴關(guān)系。由于卷積運(yùn)算符具有一個(gè)局部感受域，所以在經(jīng)過(guò)幾個(gè)卷積層之后，只能處理長(zhǎng)距離的相關(guān)性。

由于各種原因，這可能會(huì)阻止學(xué)習(xí)長(zhǎng)相關(guān)性（long-term dependencies）：小的模型可能無(wú)法表示它們，優(yōu)化算法可能無(wú)法發(fā)現(xiàn)參數(shù)值，這些參數(shù)值仔細(xì)協(xié)調(diào)多個(gè)層，以捕獲這些相關(guān)性，并且這些參數(shù)化在統(tǒng)計(jì)學(xué)上可能相當(dāng)脆弱，當(dāng)應(yīng)用于以前未見(jiàn)過(guò)的輸入時(shí)容易失敗。增加卷積核的大小可以提高網(wǎng)絡(luò)的表征能力，但這樣做也會(huì)失去利用局部卷積結(jié)構(gòu)獲得的計(jì)算和統(tǒng)計(jì)效率。

另一方面，自注意力（Self-attention）可以更好地平衡模型的長(zhǎng)相關(guān)性和計(jì)算與統(tǒng)計(jì)效率。self-attention模塊以所有位置的特征加權(quán)和來(lái)計(jì)算響應(yīng)，其中權(quán)重（或attention vectors）只以很小的計(jì)算成本來(lái)計(jì)算。

圖 1：我們提出的SAGAN通過(guò)利用圖像遠(yuǎn)端部分的互補(bǔ)特征來(lái)生成圖像，而不是固定形狀的局部區(qū)域，從而可以生成一致的對(duì)象/場(chǎng)景。圖中每一行的第一個(gè)圖像顯示了帶顏色編碼點(diǎn)的五個(gè)代表性查詢位置。其他五個(gè)圖像是針對(duì)這些查詢位置的 attention maps，其中對(duì)應(yīng)的顏色編碼的箭頭概括了更受關(guān)注的區(qū)域。

在這項(xiàng)工作中，我們提出了自注意力生成對(duì)抗網(wǎng)絡(luò)（SAGAN），它將自注意力機(jī)制（self-attention mechanism）引入到卷積GAN中。自注意力模塊（self-attention module）是對(duì)卷積的補(bǔ)充，有助于模擬跨越圖像區(qū)域的長(zhǎng)距離、多層的依賴關(guān)系。通過(guò)self-attention，生成器可以繪制圖像，所繪制圖像中每個(gè)位置的精細(xì)細(xì)節(jié)都與圖像遠(yuǎn)端的精細(xì)細(xì)節(jié)充分協(xié)調(diào)。此外，鑒別器還可以更準(zhǔn)確地對(duì)全局圖像結(jié)構(gòu)執(zhí)行復(fù)雜的幾何約束。

圖2：所提出的self-attention機(jī)制。?表示矩陣乘法，在每一行上執(zhí)行softmax操作。

除了self-attention之外，我們還將最近關(guān)于網(wǎng)絡(luò)調(diào)節(jié)（network conditioning）的見(jiàn)解與GAN的性能結(jié)合起來(lái)。A. Odena等人的研究[18]表明，調(diào)節(jié)良好的生成器往往表現(xiàn)更好。我們建議使用以前僅應(yīng)用于鑒別器的譜歸一化技術(shù)（spectral normalization）來(lái)加強(qiáng)GAN生成器器的調(diào)節(jié)。

我們?cè)贗mageNet數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)，以驗(yàn)證所提出的self-attention機(jī)制和穩(wěn)定技術(shù)的有效性。SAGAN在圖像合成方面的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)了state-of-the-art的表現(xiàn)，將此前報(bào)告的較高Inception score從36.8提高到52.52，將Fréchet初始距離（Fréchet Inception distance，F(xiàn)ID）從27.62降低到18.65。attention層的可視化顯示，生成器利用與對(duì)象形狀相對(duì)應(yīng)的區(qū)域，而不是固定形狀的局部區(qū)域。

ImageNet上的圖像合成實(shí)驗(yàn)

為了評(píng)價(jià)所提出的方法，我們?cè)贚SVRC 2012 （ImageNet）上數(shù)據(jù)集進(jìn)行了大量的實(shí)驗(yàn)。首先，我們對(duì)評(píng)估所提出的兩種穩(wěn)定GAN訓(xùn)練的技術(shù)進(jìn)行有效性實(shí)驗(yàn)。其次，對(duì)所提出的self-attention mechanism進(jìn)行了研究。最后，將SAGAN與其他state-of-the-art的圖像生成方法進(jìn)行了比較。

評(píng)估指標(biāo)

我們使用Inception score（IS）和Fréchet初始距離（FID）進(jìn)行定量評(píng)估。Inception score越高，表示圖像質(zhì)量越好。 FID是一個(gè)更加基于規(guī)則和綜合性的指標(biāo)，并且在評(píng)估生成的樣本的真實(shí)性和變異性方面已被證明與人類的評(píng)估更加一致。越低的FID值意味著合成數(shù)據(jù)分布與真實(shí)數(shù)據(jù)分布之間的距離更近。

圖3：基線模型與我們的模型的訓(xùn)練曲線，利用了我們提出的穩(wěn)定技術(shù)

表1：GAN的Self-Attention與Residual塊的比較。這些塊被添加到網(wǎng)絡(luò)的不同層。所有模型都經(jīng)過(guò)100萬(wàn)次迭代的訓(xùn)練，并報(bào)告較佳的Inception score（IS）和Fréchet初始距離（FID）。

圖4：基線模型和我們的模型隨機(jī)生成的128×128圖像樣本

圖5：attention maps的可視化。這些圖像都由SAGAN生成。

與state-of-the-art模型的比較

在ImageNet上，SAGAN與較先進(jìn)的GAN模型[19,17]進(jìn)行了比較。如表2所示，我們提出的SAGAN得到了Inception score和FID。Inception score方面，SAGAN將此前0較高的36.8提高到52.52；FID（18.65）也表明，SAGAN可以通過(guò)使用self-attention模塊對(duì)圖像區(qū)域之間的全局依賴關(guān)系進(jìn)行建模，從而更好地模擬原始圖像的分布。圖6展示了由SAGAN生成的一些示例圖像。

表2: 將所提出的SAGAN與較先進(jìn)GAN模型進(jìn)行比較，任務(wù)是ImageNet上的類別條件圖像生成。

圖6：SAGAN 生成的不同類別的128×128分辨率示例圖像。每行展示一個(gè)類別的示例。

總結(jié)

在本研究中，我們提出自注意力生成對(duì)抗網(wǎng)絡(luò)（SAGAN），它將self-attention機(jī)制引入到GAN的框架。 self-attention 模塊在建模長(zhǎng)相關(guān)性（ long-range dependencies）方面很有效。另外，我們證明了應(yīng)用于生成器的譜歸一化可以穩(wěn)定GAN的訓(xùn)練，并且TTUR加速了正則化鑒別器的訓(xùn)練。SAGAN在ImageNet的分類條件圖像生成任務(wù)上達(dá)到較先進(jìn)的性能。

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

GPU云服務(wù)器云服務(wù)器合成彩色圖像 imagenet 云服務(wù)器 imagenet+云服務(wù)器 imagenet”數(shù)據(jù)庫(kù)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/4780.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Harpsichord1207

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

ArdHosting：印度尼西亞VPS，限時(shí)免安裝費(fèi)，12.6美元/月起，無(wú)限流量

閱讀 3501·2021-10-18 13:30
學(xué)習(xí)python就用python技能樹(shù)｜Python技能樹(shù)測(cè)評(píng)

閱讀 2951·2021-10-09 09:44
CSS資源相關(guān)整理

閱讀 1971·2019-08-30 11:26
PostCSS自學(xué)筆記（二）【番外篇一】

閱讀 2303·2019-08-29 13:17
js 獲取和設(shè)置css3 屬性值的實(shí)現(xiàn)方法

閱讀 767·2019-08-29 12:17
Ajax的原理和實(shí)現(xiàn)步驟

閱讀 2255·2019-08-26 18:42
filter 和 map 的異同

閱讀 480·2019-08-26 13:24
通過(guò)寫一個(gè)簡(jiǎn)單的東方系彈幕入門微信小游戲

閱讀 2963·2019-08-26 11:39

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Ian Goodfellow提出自注意力GAN，ImageNet圖像合成獲最優(yōu)結(jié)果

相關(guān)文章

**一個(gè)GAN生成ImageNet全部1000類物體**

GAN之父Ian Goodfellow加盟蘋果

**火熱的生成對(duì)抗網(wǎng)絡(luò)（GAN），你究竟好在哪里**

**DeepMind提出Auto-encoding GAN的變分方法**

Goodfellow回谷歌后首篇GAN論文：可遷移性對(duì)抗樣本空間

發(fā)表評(píng)論

0條評(píng)論

Harpsichord1207

男|高級(jí)講師

TA的文章

ArdHosting：印度尼西亞VPS，限時(shí)免安裝費(fèi)，12.6美元/月起，無(wú)限流量

學(xué)習(xí)python就用python技能樹(shù)｜Python技能樹(shù)測(cè)評(píng)

CSS資源相關(guān)整理

PostCSS自學(xué)筆記（二）【番外篇一】

js 獲取和設(shè)置css3 屬性值的實(shí)現(xiàn)方法

Ajax的原理和實(shí)現(xiàn)步驟

filter 和 map 的異同

通過(guò)寫一個(gè)簡(jiǎn)單的東方系彈幕入門微信小游戲

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Ian Goodfellow提出自注意力GAN，ImageNet圖像合成獲最優(yōu)結(jié)果

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Ian Goodfellow提出自注意力GAN，ImageNet圖像合成獲最優(yōu)結(jié)果