成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

NVIDIA開(kāi)源DG-Net:用GAN生成行人圖像,淘寶式換衣,輔助行人重識(shí)別

Hanks10100 / 2390人閱讀

摘要:通過(guò)生成高質(zhì)量的行人圖像,將其與行人重識(shí)別模型融合,同時(shí)提升行人生成的質(zhì)量和行人重識(shí)別的精度。若使用這些低質(zhì)量的行人生成圖像來(lái)訓(xùn)練行人重識(shí)別模型,會(huì)引入與原始數(shù)據(jù)集之間的差異。首次提出了利用生成的圖像輔助行人重識(shí)別的特征學(xué)習(xí)。

前幾天英偉達(dá)開(kāi)源了DG-Net的源碼。讓我們來(lái)回顧一下這篇CVPR19 Oral的論文。

論文是英偉達(dá)(NVIDIA), 悉尼科技大學(xué)(UTS), 澳大利亞國(guó)立大學(xué)(ANU)的研究人員 在CVPR19上口頭報(bào)告的文章《 Joint Discriminative and Generative Learning for Person Re-identification》。 深度學(xué)習(xí)模型訓(xùn)練時(shí)往往需要大量的標(biāo)注數(shù)據(jù),但收集和標(biāo)注大量的數(shù)據(jù)往往比較困難。作者在行人重識(shí)別這個(gè)任務(wù)上探索了 利用生成數(shù)據(jù)來(lái)輔助訓(xùn)練的方法。通過(guò)生成高質(zhì)量的行人圖像,將其與行人重識(shí)別模型融合,同時(shí)提升行人生成的質(zhì)量和行人重識(shí)別的精度。
論文鏈接:https://arxiv.org/abs/1904.07223
B 站視頻: https://www.bilibili.com/vide...
騰訊視頻: https://v.qq.com/x/page/t0867...

代碼:https://github.com/NVlabs/DG-Net

Why: (之前論文的痛點(diǎn)有哪些?)

生成高質(zhì)量的行人圖像有一定難度。之前一些工作生成的行人圖像質(zhì)量相對(duì)低(如上圖)。主要體現(xiàn)在兩個(gè)方面:1.生成的真實(shí)度:行人不夠真實(shí), 圖像模糊, 背景不真實(shí); 2. 需要額外的標(biāo)注來(lái)輔助生成:需要額外的人體骨架或者屬性標(biāo)注。

若使用這些低質(zhì)量的行人生成圖像來(lái)訓(xùn)練行人重識(shí)別模型,會(huì)引入與原始數(shù)據(jù)集之間的差異(bias)。故之前的工作,要么僅僅把所有生成的行人圖像看成outlier來(lái)正則網(wǎng)絡(luò); 要么額外- 訓(xùn)練一個(gè)生成圖像的模型,和原始模型做融合; 要么就是完全不用生成的圖像去訓(xùn)練。

同時(shí),由于數(shù)據(jù)集的標(biāo)注難度,行人重識(shí)別的訓(xùn)練集(如Market和DukeMTMC-reID)數(shù)據(jù)量一般在2W左右,遠(yuǎn)小于ImageNet等數(shù)據(jù)集,容易過(guò)擬合的問(wèn)題也一直沒(méi)有很好解決。

What: (這篇論文提出了什么,解決了什么問(wèn)題)

不需要額外標(biāo)注(如姿態(tài)pose,屬性attribute,關(guān)鍵點(diǎn)keypoints等),就能生成高質(zhì)量行人圖像。通過(guò)交換提取出的特征,來(lái)實(shí)現(xiàn)兩張行人圖像的外表互換。這些外表都是訓(xùn)練集中真實(shí)存在的變化,而不是隨機(jī)噪聲。

不需要部件匹配來(lái)提升行人重識(shí)別的結(jié)果。僅僅是讓模型看更多訓(xùn)練樣本就可以提升模型的效果。給定N張圖像,我們首先生成了NxN的訓(xùn)練圖像,用這些圖像來(lái)訓(xùn)練行人重識(shí)別模型。(下圖第一行和第一列為真實(shí)圖像輸入,其余都為生成圖像)

訓(xùn)練中存在一個(gè)循環(huán): 生成圖像喂給行人重識(shí)別模型來(lái)學(xué)習(xí)好的行人特征,而行人重識(shí)別模型提取出來(lái)的特征也會(huì)再喂給生成模型來(lái)提升生成圖像的質(zhì)量。

How:(這篇文章是怎么達(dá)到這個(gè)目標(biāo))

特征的定義:

在本文中,我們首先定義了兩種特征。一種為外表特征,一種為結(jié)構(gòu)特征。外表特征與行人的ID相關(guān),結(jié)構(gòu)特征與low-level的視覺(jué)特征相關(guān)。

生成的部分:

同ID重構(gòu):相同人不同照片的appearance code應(yīng)該是相同的。如下圖,

我們可以有一個(gè)自我重構(gòu)的loss(上方,類似auto-encoder),還可以用同ID的postive sample來(lái)構(gòu)建生成圖像。這里我們用了pixel-level的L1 Loss。

不同ID生成:

這是最關(guān)鍵的部分。給定兩張輸入圖像,我們可以交換他們的appearance 和 structure code來(lái)生成有意思的兩個(gè)輸出,如下圖。對(duì)應(yīng)的損失有: 維持真實(shí)性的GAN Loss, 生成圖像還能重構(gòu)出對(duì)應(yīng)的a/s的特征重構(gòu)損失。

我們的網(wǎng)絡(luò)中沒(méi)有隨機(jī)的部分,所以生成圖像的變化都是來(lái)自訓(xùn)練集本身。故更接近原始的訓(xùn)練集。

reID的部分:

對(duì)于真實(shí)圖像,我們?nèi)耘f使用分類的cross entropy loss。
對(duì)于生成圖像,我們使用了兩個(gè)loss,一個(gè)為L(zhǎng)_{prime},通過(guò)訓(xùn)好的baseline模型當(dāng)老師,來(lái)提供生成圖像的soft label,最小化預(yù)測(cè)結(jié)果和老師模型的KL距離。另一個(gè)loss,來(lái)挖掘一些圖像變了appearance后,仍保留的細(xì)節(jié)信息,為L(zhǎng)_{fine}。(具體細(xì)節(jié)可以見(jiàn)論文。)

Results:

定性指標(biāo):

外表互換,我們?cè)谌齻€(gè)數(shù)據(jù)集上測(cè)試了結(jié)果,可以看到對(duì)于遮擋/大的光照變化,我們的方法都相對(duì)魯棒。

外表插值。網(wǎng)絡(luò)是不是記住了生成圖像的樣子。故我們做了一個(gè)逐漸改變appearance的實(shí)驗(yàn),可以看到外表是逐漸并且smooth地改變的。

失敗的案例。不常見(jiàn)的圖案如logo無(wú)法還原。

定量指標(biāo):

生成圖像的真實(shí)度(FID)和多樣性(SSIM)比較。FID越小越好,SSIM越大越好。

在多個(gè)數(shù)據(jù)集上的reID結(jié)果 (Market-1501, DukeMTMC-reID, MSMT17, CUHK03-NP)。


附:視頻Demo

B 站視頻備份: https://www.bilibili.com/vide...
騰訊視頻備份: https://v.qq.com/x/page/t0867...

最后,感謝大家看完。因?yàn)槲覀円蔡幵诔醪絿L試和探索階段,所以不可避免地會(huì)對(duì)一些問(wèn)題思考不夠全面。如果大家發(fā)現(xiàn)有不清楚的地方,歡迎提出寶貴意見(jiàn)并與我們一起討論,謝謝!

參考文獻(xiàn)

[1] Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. ICCV, 2017.
[2] Y. Huang, J. Xu, Q. Wu, Z. Zheng, Z. Zhang, and J. Zhang. Multi-pseudo regularized label for generated samples in person reidentification. TIP, 2018.
[3] X. Qian, Y. Fu, T. Xiang, W. Wang, J. Qiu, Y. Wu, Y.-G. Jiang, and X. Xue. Pose-normalized image generation for person reidentification. ECCV, 2018.
[4] Y. Ge, Z. Li, H. Zhao, G. Yin, X. Wang, and H. Li. Fd-gan: Pose-guided feature distilling gan for robust person re-identification. In NIPS, 2018.

作者簡(jiǎn)介

本文的第一作者鄭哲東是悉尼科技大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的博士生,預(yù)計(jì)2021年 6 月畢業(yè)。該論文是其在英偉達(dá)實(shí)習(xí)期間的成果。

鄭哲東目前已經(jīng)發(fā)表8篇論文。其中一篇為ICCV17 spotlight,被引用超過(guò)了300次。首次提出了利用GAN生成的圖像輔助行人重識(shí)別的特征學(xué)習(xí)。一篇TOMM期刊論文被Web of Science選為2018年高被引論文,被引用超過(guò)200次。同時(shí),他還為社區(qū)貢獻(xiàn)了行人重識(shí)別問(wèn)題的基準(zhǔn)代碼,在Github上star超過(guò)了1000次,被廣泛采用。

另外,論文的其他作者包括英偉達(dá)研究院的視頻領(lǐng)域?qū)<?- 楊曉東、人臉領(lǐng)域?qū)<矣碇Γ⊿phere Face,LargeMargin作者)、行人重識(shí)別專家鄭良博士,鄭哲東的導(dǎo)師楊易教授(今年有三篇 CVPR oral 中稿)、和英偉達(dá)研究院的VP Jan Kautz等。

鄭哲東個(gè)人網(wǎng)站:http://zdzheng.xyz/

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/45221.html

相關(guān)文章

  • GitChat · 人工智能 | 自動(dòng)駕駛的技術(shù)架構(gòu)和生態(tài)發(fā)展

    摘要:目前每年全球有萬(wàn)人死于車(chē)禍,損失,相關(guān)于很多國(guó)家的,自動(dòng)駕駛可以很大效率的減少車(chē)禍,拯救生命。美國(guó)汽車(chē)工程師協(xié)會(huì)和美國(guó)高速公路安全局將自動(dòng)駕駛技術(shù)進(jìn)行了分級(jí)。特定場(chǎng)所的高度自動(dòng)駕駛。這叫基于規(guī)則的一種自動(dòng)駕駛,簡(jiǎn)單的。 來(lái)自 GitChat 作者:劉盼更多IT技術(shù)分享,盡在微信公眾號(hào):GitChat技術(shù)雜談 進(jìn)入 GitChat 閱讀原文我們先以汽車(chē)在現(xiàn)代科技領(lǐng)域的演進(jìn)來(lái)開(kāi)始這次的ch...

    X1nFLY 評(píng)論0 收藏0
  • CNN分100,000類圖像

    摘要:在這篇文章中我們嘗試了用分類類圖像。實(shí)際上我們將每張訓(xùn)練集中的圖像認(rèn)為成一類。我們采用了一個(gè)簡(jiǎn)單的方法在最后分類前,讓文本和圖像使用一個(gè),那么在過(guò)程中會(huì)用一個(gè)軟的約束,這就完成了詳見(jiàn)論文。類似圖像的操作吧。 Motivation在這篇文章中我們嘗試了 用CNN分類113,287類圖像(MSCOCO)。實(shí)際上我們將每張訓(xùn)練集中的圖像認(rèn)為成一類。(當(dāng)然, 如果只用一張圖像一類,CNN肯定會(huì)過(guò)擬合...

    verano 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<