成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

「正經(jīng)字幕」太無(wú)聊?「神經(jīng)玩笑機(jī)」就可以生成逗你笑的趣味字幕

lastSeries / 3732人閱讀

摘要:最后,我們顯示了若干張圖像中所生成的趣味字幕。圖所提出的有趣字幕生成的體系結(jié)構(gòu)。我們將所提出的方法稱(chēng)為神經(jīng)玩笑機(jī)器,它是與預(yù)訓(xùn)練模型相結(jié)合的。用戶對(duì)已發(fā)布的字幕的趣味性進(jìn)行評(píng)估,并為字幕指定一至三顆星。

可以毫不夸張地說(shuō),笑是一種特殊的高階功能,且只有人類(lèi)才擁有。那么,是什么引起人類(lèi)的笑聲表達(dá)呢?最近,日本東京電機(jī)大學(xué)(Tokyo Denki University)和日本國(guó)家先進(jìn)工業(yè)科學(xué)和技術(shù)研究所(AIST)的科學(xué)家們提出了一種新方法,通過(guò)使用它就能夠生成引人發(fā)笑的字幕。

想問(wèn)大家一個(gè)問(wèn)題:什么是能夠引起人類(lèi)笑聲的有效表達(dá)?在本文中,為了從學(xué)術(shù)角度思考這個(gè)問(wèn)題,我們用計(jì)算機(jī)生成了一個(gè)能夠引人“大笑”的圖像字幕(image caption)。我們構(gòu)建了一個(gè)基于計(jì)算機(jī)視覺(jué)領(lǐng)域中所提出的圖像字幕,能夠輸出趣味字幕的系統(tǒng)。此外,我們還提出了“趣味分?jǐn)?shù)”(Funny Score),它能夠根據(jù)一個(gè)評(píng)估數(shù)據(jù)庫(kù)靈活地給出權(quán)重?;?jǐn)?shù)能夠更有效地帶出“笑聲”從而對(duì)模型進(jìn)行優(yōu)化。另外,我們構(gòu)建了一個(gè)自收集的BoketeDB,其中包含一個(gè)主題(圖像)和張貼在“Bokete”上的趣味字幕(文本),這是一個(gè)Image Ogiri網(wǎng)站。在實(shí)驗(yàn)中,我們通過(guò)比較使用所提出的方法獲得的結(jié)果和使用MS COCO預(yù)先訓(xùn)練的CNN + LSTM(這是由人類(lèi)創(chuàng)建的基線)獲得的結(jié)果,從而驗(yàn)證所提出的方法的有效性。我們將所提出的方法稱(chēng)為神經(jīng)玩笑機(jī)器(Neural Joking Machine,NJM),該方法使用BoketeDB預(yù)訓(xùn)練模型。

圖1:NJM從圖像輸入中生成的有趣字幕樣本。

可以毫不夸張地說(shuō),笑是一種特殊的高階功能,且只有人類(lèi)才擁有。在對(duì)笑聲的分析中,正如維基百科所言,“笑聲被認(rèn)為是構(gòu)圖(模式)的轉(zhuǎn)變”,并且當(dāng)接受者的構(gòu)圖發(fā)生變化時(shí),笑聲就會(huì)經(jīng)常發(fā)生。然而,笑聲的視角在很大的程度上取決于接受者的位置。因此,想要對(duì)笑聲進(jìn)行定量測(cè)量是非常困難的。最近出現(xiàn)了諸如“Bokete”等網(wǎng)絡(luò)服務(wù)的Image Ogiri,其中,用戶在主題圖片上發(fā)布有趣的字幕,而字幕也會(huì)并在類(lèi)似SNS的環(huán)境中進(jìn)行評(píng)估。用戶進(jìn)行競(jìng)爭(zhēng)以獲得最多的“星星”。雖然對(duì)笑聲進(jìn)行量化被認(rèn)為是一項(xiàng)非常困難的任務(wù),但Bokete評(píng)估和圖像之間的對(duì)應(yīng)關(guān)系使得我們我們能夠定量地處理笑聲。圖像字幕是計(jì)算機(jī)視覺(jué)中的一個(gè)活躍話題,而且我們認(rèn)為可以實(shí)現(xiàn)幽默的圖像字幕。本文的主要貢獻(xiàn)如下:

?我們基于最近在計(jì)算機(jī)視覺(jué)領(lǐng)域的圖像字幕研究,提出了一個(gè)用于趣味字幕生成器的框架。

?我們定義了趣味分?jǐn)?shù)(Funny Score),這是一個(gè)基于數(shù)據(jù)庫(kù)中現(xiàn)有滑稽字幕評(píng)估的權(quán)重系統(tǒng)。而這個(gè)趣味分?jǐn)?shù)常用于損失函數(shù)。

?我們收集了數(shù)據(jù)以從Web服務(wù)Bokete上創(chuàng)建BoketeDB。該數(shù)據(jù)庫(kù)包含999,571張圖像和字幕對(duì)。

BoketeDB

在實(shí)驗(yàn)部分,我們將所提出的基于趣味分?jǐn)?shù)和BoketeDB預(yù)訓(xùn)練參數(shù)的方法與MS COCO 預(yù)訓(xùn)練的 CNN + LSTM所提供的基線進(jìn)行了比較。我們還將NJM的結(jié)果與人類(lèi)所提供的趣味字幕進(jìn)行比較。在人類(lèi)的評(píng)估中,該方法所提供的結(jié)果排名要低于人類(lèi)所提供的結(jié)果(22.59%VS 67.99%),但排名要高于基線(9.41%)。最后,我們顯示了若干張圖像中所生成的趣味字幕。

圖2:所提出的有趣字幕生成的CNN + LSTM體系結(jié)構(gòu)。

相關(guān)研究

憑借在深度神經(jīng)網(wǎng)絡(luò)(DNNs)所取得的重大研究進(jìn)展,我們發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(CNN+RNN)的組合,是一種用于特征提取和序列處理的成功模型。盡管沒(méi)有明確的劃分,但CNN通常用于圖像處理,而RNN通常用于文本處理。此外,這兩個(gè)領(lǐng)域是相互統(tǒng)一的。一項(xiàng)成功的應(yīng)用是使用CNN+LSTM(CNN+長(zhǎng)短期記憶)生成圖像字幕。該技術(shù)可以從圖像輸入中自動(dòng)生成文本。然而,我們認(rèn)為圖像字幕需要人類(lèi)的直覺(jué)和情感。在本文中,我們將幫助引導(dǎo)一個(gè)圖像字幕進(jìn)行有趣的表達(dá)。接下來(lái),我們將介紹幽默圖像字幕生成的相關(guān)研究。

Wang等人提出了一種自動(dòng)“meme”生成技術(shù)。meme是一種有趣的圖像,通常包含幽默文字。Wang等人通過(guò)統(tǒng)計(jì)分析meme和評(píng)論之間的相關(guān)性,從而對(duì)概率依賴關(guān)系(例如圖像和文本的依賴關(guān)系)進(jìn)行建模,并自動(dòng)生成meme。

Chandrasekaran等人通過(guò)構(gòu)造一個(gè)分析器來(lái)量化圖像輸入中的“視覺(jué)幽默”,從而對(duì)圖像進(jìn)行幽默增強(qiáng)。他們還構(gòu)建了包含有趣的(3200張)和無(wú)趣的(3200張)人類(lèi)標(biāo)記圖像在內(nèi)的數(shù)據(jù)集來(lái)評(píng)估視覺(jué)幽默??梢酝ㄟ^(guò)定義5個(gè)階段來(lái)訓(xùn)練一張圖像的“趣味性”。

圖3:輸出結(jié)果的比較:“Human”行表示人類(lèi)用戶所提供的字幕,且在Bokete網(wǎng)站上排名較高?!癗JM”行表示應(yīng)用所提出的基于Funny Score和BoketeDB的模型生成的結(jié)果?!癝TAIR字幕”欄表示MS COCO的日語(yǔ)翻譯結(jié)果。

所提出的方法

我們通過(guò)使用所提出的滑稽分?jǐn)?shù)進(jìn)行權(quán)重評(píng)估來(lái)對(duì)趣味字幕生成器進(jìn)行有效的訓(xùn)練。我們采用CNN + LSTM作為基準(zhǔn),但我們一直在探索有效的評(píng)分函數(shù)和數(shù)據(jù)庫(kù)構(gòu)建。我們將所提出的方法稱(chēng)為神經(jīng)玩笑機(jī)器(NJM),它是與BoketeDB預(yù)訓(xùn)練模型相結(jié)合的。

CNN + LSTM

所提出方法的流程如圖2所示?;旧?,我們采用了Show和Tell中使用的CNN + LSTM模型,但CNN被ResNet-152替代為圖像特征提取方法。接下來(lái),我們將詳細(xì)描述如何使用滑稽分?jǐn)?shù)計(jì)算損失函數(shù)。該函數(shù)能夠適當(dāng)?shù)卦u(píng)估星星的數(shù)量和它的“趣味性”。

趣味分?jǐn)?shù)(Funny Score)

Bokete Ogiri網(wǎng)站使用星星的數(shù)量來(lái)評(píng)估字幕的趣味程度。用戶對(duì)已發(fā)布的字幕的“趣味性”進(jìn)行評(píng)估,并為字幕指定一至三顆星。因此,有趣的標(biāo)題往往會(huì)被分配更多的星星。因此,我們關(guān)注的是星星的數(shù)量,以提出一種有效的訓(xùn)練方法,其中,趣味分?jǐn)?shù)使得我們能夠評(píng)估字幕的趣味性。根據(jù)我們先前實(shí)驗(yàn)的結(jié)果,擁有100顆星星的趣味分?jǐn)?shù)被視為閾值。換句話說(shuō),當(dāng)星星的數(shù)量小于100時(shí),趣味分?jǐn)?shù)輸出損失值L;相反,當(dāng)星星的數(shù)量超過(guò)100時(shí),趣味分?jǐn)?shù)返回L -1.0。損失值L是用LSTM進(jìn)行計(jì)算的,作為每個(gè)小批量的平均值。

圖4.使用所提出的NJM獲得的可視化結(jié)果。

總而言之,在本文中,我們提出了一種方法,通過(guò)使用它能夠生成引人發(fā)笑的字幕。我們構(gòu)建了Bokete DB,其中包含在Bokete Ogiri網(wǎng)站上發(fā)布的一個(gè)主題(圖像)和相應(yīng)的有趣字幕。通過(guò)權(quán)重評(píng)估,我們有效地訓(xùn)練了一個(gè)帶有趣味分?jǐn)?shù)的趣味字幕生成器。雖然我們以CNN+LSTM為基準(zhǔn),但我們始終在探索一種有效的評(píng)分函數(shù)和數(shù)據(jù)庫(kù)結(jié)構(gòu)。本次研究的實(shí)驗(yàn)表明,NJM比基準(zhǔn)STAIR字幕要有趣得多。

原文鏈接:https://arxiv.org/pdf/1805.11850.pdf

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4773.html

相關(guān)文章

  • 重磅 | 完備的 AI 學(xué)習(xí)路線,最詳細(xì)的資源整理!

    摘要:是你學(xué)習(xí)從入門(mén)到專(zhuān)家必備的學(xué)習(xí)路線和優(yōu)質(zhì)學(xué)習(xí)資源。的數(shù)學(xué)基礎(chǔ)最主要是高等數(shù)學(xué)線性代數(shù)概率論與數(shù)理統(tǒng)計(jì)三門(mén)課程,這三門(mén)課程是本科必修的。其作為機(jī)器學(xué)習(xí)的入門(mén)和進(jìn)階資料非常適合。書(shū)籍介紹深度學(xué)習(xí)通常又被稱(chēng)為花書(shū),深度學(xué)習(xí)領(lǐng)域最經(jīng)典的暢銷(xiāo)書(shū)。 showImg(https://segmentfault.com/img/remote/1460000019011569); 【導(dǎo)讀】本文由知名開(kāi)源平...

    荊兆峰 評(píng)論0 收藏0
  • 普通程序員,如何轉(zhuǎn)行人工智能?

    摘要:普通程序員,如何轉(zhuǎn)向人工智能方向,是知乎上的一個(gè)問(wèn)題。領(lǐng)域簡(jiǎn)介,也就是人工智能,并不僅僅包括機(jī)器學(xué)習(xí)。但是,人工智能并不等同于機(jī)器學(xué)習(xí),這點(diǎn)在進(jìn)入這個(gè)領(lǐng)域時(shí)一定要認(rèn)識(shí)清楚。 人工智能已經(jīng)成為越來(lái)越火的一個(gè)方向。普通程序員,如何轉(zhuǎn)向人工智能方向,是知乎上的一個(gè)問(wèn)題。本文是對(duì)此問(wèn)題的一個(gè)回答的歸檔版。相比原回答有所內(nèi)容增加。 目的 本文的目的是給出一個(gè)簡(jiǎn)單的,平滑的,易于實(shí)現(xiàn)的學(xué)習(xí)方法,幫...

    mingde 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<