成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

用CNN分100,000類圖像

verano / 3216人閱讀

摘要:在這篇文章中我們嘗試了用分類類圖像。實(shí)際上我們將每張訓(xùn)練集中的圖像認(rèn)為成一類。我們采用了一個(gè)簡(jiǎn)單的方法在最后分類前,讓文本和圖像使用一個(gè),那么在過(guò)程中會(huì)用一個(gè)軟的約束,這就完成了詳見(jiàn)論文。類似圖像的操作吧。

Motivation

在這篇文章中我們嘗試了 用CNN分類113,287類圖像(MSCOCO)。

實(shí)際上我們將每張訓(xùn)練集中的圖像認(rèn)為成一類。(當(dāng)然, 如果只用一張圖像一類,CNN肯定會(huì)過(guò)擬合)。同時(shí),我們利用了5句圖像描述(文本),加入了訓(xùn)練。所以每一類相當(dāng)于 有6個(gè)樣本 (1張圖像+5句描述)。

文章想解決的問(wèn)題是instance-level的retrieval,也就是說(shuō) 如果你在5000張圖的image pool中,要找“一個(gè)穿藍(lán)色衣服的金發(fā)女郎在打車?!?實(shí)際上你只有一個(gè)正確答案。不像class-level 或category-level的 要找“女性“可能有很多個(gè)正確答案。所以這個(gè)問(wèn)題更細(xì)粒度,也更需要detail的視覺(jué)和文本特征。

同時(shí)我們又觀察到好多之前的工作都直接使用 class-level的 ImageNet pretrained 網(wǎng)絡(luò)。但這些網(wǎng)絡(luò)實(shí)際上損失了信息(數(shù)量/顏色/位置)。以下三張圖在imagenet中可能都會(huì)使用Dog的標(biāo)簽,而事實(shí)上我們可以用自然語(yǔ)言給出更精準(zhǔn)的描述。也就是我們這篇論文所要解決的問(wèn)題(instance-level的圖文互搜)。

Method

1.對(duì)于自然語(yǔ)言描述,我們采用了相對(duì)不那么常用的CNN 結(jié)構(gòu),而不是LSTM結(jié)構(gòu)。來(lái)并行訓(xùn)練,finetune整個(gè)網(wǎng)絡(luò)。結(jié)構(gòu)如圖。結(jié)構(gòu)其實(shí)很簡(jiǎn)單。

對(duì)于TextCNN,我們是用了類似ResNet的block。注意到句子是一維的,在實(shí)際使用中,我們用的是 1X2的conv。

2. Instance loss。我們注意到,最終的目的是讓每一個(gè)圖像都有區(qū)分(discriminative)的特征,自然語(yǔ)言描述也是。所以,為什么不嘗試把每一張圖像看成一類呢。(注意這個(gè)假設(shè)是無(wú)監(jiān)督的,不需要任何標(biāo)注。)

這種少樣本的分類其實(shí)在之前做行人重識(shí)別就常用,但行人重識(shí)別(1467類,每類9.6張圖像,有人為ID的標(biāo)注。)沒(méi)有像我們這么極端。

Flickr30k:31,783類 (1圖像+5描述), 其中訓(xùn)練圖像為 29,783類

MSCOCO:123,287類 (1圖像 + ~5描述), 其中訓(xùn)練圖像為 113,287類

注意到 Flickr30k中其實(shí)有挺多挺像的狗的圖像。不過(guò)我們?nèi)耘f將他們處理為不同的類,希望也能學(xué)到細(xì)粒度的差別。(而對(duì)于CUHK-PEDES,因?yàn)橥粋€(gè)人的描述都差不多。我們用的是同一個(gè)人看作一個(gè)類,所以每一類訓(xùn)練圖片多一些。CUHK-PEDES用了ID annotation,而MSCOCO和Flickr30k我們是沒(méi)有用的。)

3. 如何結(jié)合 文本和圖像一起訓(xùn)練?

其實(shí),文本和圖像很容易各學(xué)各的,來(lái)做分類。所以我們需要一個(gè)限制,讓他們映射到同一個(gè)高層語(yǔ)義空間。

我們采用了一個(gè)簡(jiǎn)單的方法:在最后分類fc前,讓文本和圖像使用一個(gè)W,那么在update過(guò)程中會(huì)用一個(gè)軟的約束,這就完成了(詳見(jiàn)論文 4.2)。 在實(shí)驗(yàn)中我們發(fā)現(xiàn)光用這個(gè)W軟約束,結(jié)果就很好了。(見(jiàn)論文中StageI的結(jié)果)

4.訓(xùn)練收斂么?

收斂的。歡迎大家看代碼。就是直接softmax loss,沒(méi)有trick。

圖像分類收斂的快一些。文本慢一些。在Flickr30k上,ImageCNN收斂的快,

TextCNN是重新開(kāi)始學(xué)的,同時(shí)是5個(gè)訓(xùn)練樣本,所以相對(duì)慢一些。

5. instance loss 是無(wú)監(jiān)督的么?

instance loss的假設(shè)是無(wú)監(jiān)督的,因?yàn)槲覀儧](méi)有用到額外的信息 (類別標(biāo)注等等)。而是用了 “每張圖就是一類” 這種信息。

6. 使用其他無(wú)監(jiān)督方法,比如kmeans 先聚類,能不能達(dá)到類似instance loss的結(jié)果?我們嘗試使用預(yù)訓(xùn)練ResNet50提取pool5特征,分別聚了3000和10000個(gè)類。(聚類很慢,雖然開(kāi)了多線程,聚10000個(gè)類花了1個(gè)多小時(shí),當(dāng)中還怕內(nèi)存不足,死機(jī)。大家請(qǐng)慎重。)

在MSCOCO采用instance loss的結(jié)果更好一些。我們認(rèn)為聚類其實(shí)沒(méi)有解決,黑狗/灰狗/兩條狗都是 狗,可能會(huì)忽略圖像細(xì)節(jié)的問(wèn)題。

7. 比結(jié)果的時(shí)候比較難。因?yàn)榇蠹业木W(wǎng)絡(luò)都不太相同(不公平),甚至train/test劃分也不同(很多之前的論文都不注明,直接拿來(lái)比)。所以在做表格的時(shí)候,我們盡量將所有方法都列了出來(lái)。注明不同split。

盡量VGG-19 和 VGG-19來(lái)比, ResNet-152 和ResNet-152比。歡迎大家詳見(jiàn)論文。

和我們這篇論文相關(guān)的,很多是魯老師的工作,真的推薦大家去看。

Multimodal convolutional neural networks for matching image and sentence(http://openaccess.thecvf.com/content_iccv_2015/papers/Ma_Multimodal_Convolutional_Neural_ICCV_2015_paper.pdf)

Convolutional Neural Network Architectures for Matching Natural Language Sentences(http://papers.nips.cc/paper/5550-convolutional-neural-network-architectures-for-matching-natural-language-sentences.pdf)

8. 更深的TextCNN一定更好么?

這個(gè)問(wèn)題是Reviewer提出的。

相關(guān)論文是 Do Convolutional Networks need to be Deep for Text Classification ?確實(shí),在我們額外的實(shí)驗(yàn)中也發(fā)現(xiàn)了這一點(diǎn)。在兩個(gè)較大的數(shù)據(jù)集上,將文本那一路的Res50提升到Res152并沒(méi)有顯著提升。

9. 一些trick(在其他任務(wù)可能不work)

因?yàn)榭催^(guò)bidirectional LSTM一個(gè)自然的想法就是 bidirectional CNN,我自己嘗試了,發(fā)現(xiàn)不work。插曲:當(dāng)時(shí)在ICML上遇到fb CNN翻譯的poster,問(wèn)了,他們說(shuō),當(dāng)然可以用啊,只是他們也沒(méi)有試之類的。

本文中使用的Position Shift 就是把CNN輸入的文本,隨機(jī)前面空幾個(gè)位置。類似圖像jitter的操作吧。還是有明顯提升的。詳見(jiàn)論文。

比較靠譜的數(shù)據(jù)增強(qiáng) 可能是用同義詞替換句子中一些詞。雖然當(dāng)時(shí)下載了libre office的詞庫(kù),但是最后還是沒(méi)有用。最后采用的是word2vec來(lái)初始化CNN的第一個(gè)conv層。某種程度上也含有了近義詞的效果。(相近詞,word vector也相近)

可能數(shù)據(jù)集中每一類的樣本比較均衡(基本都是1+5個(gè)),也是一個(gè)我們效果好的原因。不容易過(guò)擬合一些“人多”的類。

Results

TextCNN 有沒(méi)有學(xué)出不同詞,不同的重要程度?(文章附錄)

我們嘗試了從句子中移除一些詞,看移除哪些對(duì)匹配score影響較大。

一些圖文互搜結(jié)果(文章附錄)

自然語(yǔ)言找行人

細(xì)粒度的結(jié)果

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4711.html

相關(guān)文章

  • 超干貨|使Keras和CNN構(gòu)建器(內(nèi)含代碼和講解)

    摘要:我們?cè)谝呀?jīng)準(zhǔn)備好的圖像數(shù)據(jù)集上,使用庫(kù)訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。示例包含用于測(cè)試卷積神經(jīng)網(wǎng)絡(luò)的圖像。訓(xùn)練,繪制準(zhǔn)確性損耗函數(shù),然后將卷積神經(jīng)網(wǎng)絡(luò)和類標(biāo)簽二進(jìn)制文件序列化到磁盤。第和行將訓(xùn)練集和測(cè)試集按照的比例進(jìn)行分割。 showImg(https://segmentfault.com/img/bV9lqk?w=698&h=698); 為了讓文章不那么枯燥,我構(gòu)建了一個(gè)精靈圖鑒數(shù)據(jù)集(Pok...

    shadowbook 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<