成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

以假亂真,MIT基于深度學(xué)習(xí)的新算法給視頻配音

mmy123456 / 2075人閱讀

摘要:它們的學(xué)習(xí)過程主要來自于深度學(xué)習(xí)框架,該項目也由美國國家科學(xué)基金會資助。聽音辨物為視頻匹配逼真聲音是音效師的主要工作領(lǐng)域后期制作音頻向?qū)?,他們記錄你在一部好萊塢電影中看到和聽到的腳步聲門的嘎吱聲騰空橫踢。

神經(jīng)網(wǎng)絡(luò)已經(jīng)在玩游戲方面超過了我們,并且也應(yīng)用于智能手機照片的管理以及郵件回復(fù)方面。此外,它們還能在好萊塢謀得一職。?

在 MIT 的計算機科學(xué)和人工智能實驗室(CSAIL),一個由 6 位研究人員組成的小組創(chuàng)建了一套機器學(xué)習(xí)系統(tǒng),它可以將聲音效果與視頻剪輯匹配。 別高興得太早,CSAIL 的算法還不能在任何舊的視頻上工作,而且它產(chǎn)生的聲音效果也是有限的。對于該項目,CSAIL 的博士生 Andrew Owens 和研究生 Phillip Isola 將他們用鼓槌重擊一堆東西錄制成視頻,包括樹樁、桌子、椅子、水坑、樓梯扶手、枯葉,還有骯臟的地面。?

該小組將最初的 1000 個批量視頻輸入到它的 AI 算法中。通過分析視頻中物體的物理外觀,鼓槌的每次運動軌跡,還有最終的聲音,計算機能夠?qū)W習(xí)到物理物體和它被擊中所發(fā)聲音之間的聯(lián)系。然后,通過“觀 看”物體被鼓槌重擊,輕敲和刮蹭時的不同視頻,這個系統(tǒng)可以計算出伴隨每個剪輯相應(yīng)的音調(diào)、音量以及的聲音聽覺特性。

視頻:https://youtu.be/0FW99AQmMc8?

該算法本身不產(chǎn)生聲音——它只是從成千上萬的音頻剪輯數(shù)據(jù)庫中獲取數(shù)據(jù)。此外,聲音效果也不是基于視覺匹配來選擇;你可以在上面視頻中1:20 處看到,該算法有自己的創(chuàng)意。它隨著沙沙作響的塑料袋來選擇聲音效果,在灌木從徹底被鼓槌敲擊時直接給出聲音效果。?

Owens 說,研究小組使用 卷積神經(jīng)網(wǎng)絡(luò)來分析視頻幀,遞歸神經(jīng)網(wǎng)絡(luò)來選擇對應(yīng)的音頻。?

它們的學(xué)習(xí)過程主要來自于 Caffe 深度學(xué)習(xí)框架,該項目也由美國國家科學(xué)基金會(National Science Foundation and Shell)資助。小組的一名成員在谷歌研究院工作,Owens 則是微軟研究獎學(xué)金計劃的一員。?

Owens 說,“我們幾乎已經(jīng)把現(xiàn)有的深度學(xué)習(xí)技術(shù)運用到了新領(lǐng)域,我們的目標(biāo)不是開發(fā)新的深度學(xué)習(xí)方法?!?

聽音辨物?

為視頻匹配逼真聲音是音效師的主要工作領(lǐng)域——后期制作音頻向?qū)?,他們記錄你在一部好萊塢電影中看到(和聽到)的腳步聲、門的嘎吱聲、騰空橫踢。?

一位出色的音效師可以將聲音較精確匹配給視頻,讓觀眾誤以為這聲音是實際捕捉到的。?

MIT 的機器人還沒有這么嫻熟。該研究小組進行了一項在線調(diào)查,為 4000 名參與者展示了同一視頻配上原始音頻和算法生成的聲音版本,然后讓他們選擇哪個視頻里的聲音是真實的。有 22% 的人選擇了假音頻——還遠不完美,但效果仍是之前版本算法的兩倍。?

根據(jù) Owens 所述,那些測試結(jié)果是一個好兆頭,預(yù)示著計算機視覺算法可以檢測物體的組成,以及輕敲、重擊、刮蹭物體時產(chǎn)生的不同物理效果。不過,還是有些物體系統(tǒng)不能 正確處理。有些時候,系統(tǒng)會認為鼓槌在撞擊某一物體,但實際上并沒有,比起對更堅實物體產(chǎn)生的聲音效果,更多的人更容易被對落葉和灰塵產(chǎn)生的聲音效果愚 弄。?

這個項目不僅僅是為了產(chǎn)生有趣的聲音效果,它背后還有更深層的原因。Owens 認為,如果該系統(tǒng)已經(jīng)非常完善,那么計算機視覺技術(shù)就可以幫助機器人通過分析物體發(fā)出的聲音來識別它的材質(zhì)和物理屬性。Owens 說,“我們希望這些算法通過觀察這些物理相互作用以及響應(yīng)來學(xué)習(xí),你可以把它想象成嬰兒那樣通過敲打、跺腳和玩耍來學(xué)習(xí)世界。”?

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4389.html

相關(guān)文章

  • 3 分鐘帶你走進視覺智能新時代 | 七牛云&美圖 AI 共享日精彩語錄

    摘要:月日下午,七牛云美圖共享日在廈門舉行,來自七牛云美圖廈門大學(xué)羅普特等眾位大咖齊聚一堂。七牛云美圖共享日精華語錄計算機識別是按照具體問題具體分析,具體場景具體分析。又稱小牛匯共享日,是小牛匯舉辦的第一個系列活動。 時間機器、穿越星際的宇宙飛船、飛行汽車,幾乎每一部科幻電影作品中都能發(fā)明點新東西。超現(xiàn)實技術(shù)在引起人們陣陣贊嘆的同時,也在激勵著人們思考如何將不可能變成可能。而在我們的生活當(dāng)中...

    Jonathan Shieber 評論0 收藏0
  • 深度學(xué)習(xí)在圖像超分辨率重建中的應(yīng)用

    摘要:基于深度學(xué)習(xí)的,主要是基于單張低分辨率的重建方法,即。而基于深度學(xué)習(xí)的通過神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)分辨率圖像到高分辨率圖像的端到端的映射函數(shù)。 超分辨率技術(shù)(Super-Resolution)是指從觀測到的低分辨率圖像重建出相應(yīng)的高分辨率圖像,在監(jiān)控設(shè)備、衛(wèi)星圖像和醫(yī)學(xué)影像等領(lǐng)域都有重要的應(yīng)用價值。SR可分為兩類:從多張低分辨率圖像重建出高分辨率圖像和從單張低分辨率圖像重建出高分辨率圖像。基于深度學(xué)...

    xinhaip 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<