成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

DeepMind發(fā)布最佳語音神經(jīng)網(wǎng)絡(luò)生成模型,與人差距縮減50%以上

niceforbear / 2408人閱讀

摘要:正如我們可以看到的那樣,降低了人類表現(xiàn)與機器表現(xiàn)之間的差異,在英語和中文上都將差距縮小了以上。對于中文和英語,谷歌當(dāng)下的系統(tǒng)被認為是世界上較好的,所以用一個模型對二者進行提高是一個很大的成就。

本文介紹的是WaveNet——一個原始音頻波形深度模型。我們展示了,Wavenet能夠生成模仿人類的語音,聽起來要比現(xiàn)有較好的文本到語音轉(zhuǎn)化系統(tǒng)更自然,將與人類表現(xiàn)的差距縮減了50%以上。

在我們的展示中,相同的網(wǎng)絡(luò)能被用于合成其他的音頻信號,比如,音樂。在這里,我們提供了一些樣本——自動生成的鋼琴曲。

會說話的機器

讓人能與機器對話是人機交互長期以來的一個夢想。近年來,隨著深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用(比如,谷歌的語音搜索),計算機理解自然語音的能力取得了革命性的進展。但是,用計算機生成語音仍然大量地依賴于所謂的 TTS (文本到語音)拼接技術(shù),在這個過程中,首先要記錄一個說話人的聲音片段,并基于此構(gòu)建超大型的數(shù)據(jù)庫,隨后,經(jīng)過再次結(jié)合過程,形成完整的表達。這樣一來,在不紀錄一個完整的新數(shù)據(jù)庫的情況下,要修飾聲音就會變得很困難(比如,轉(zhuǎn)化到不同的說話者,或者轉(zhuǎn)化語音中的情感和語氣)。

這導(dǎo)致了對參數(shù)的 TTS 的大量需求,在這里面,所有生成數(shù)據(jù)所需要的信息都被存儲到模型的參數(shù)中,并且,語音中的內(nèi)容和個性可以通過模型的輸入進行控制。但是,目前為止,參數(shù)的TTS聽起來更多的是不自然的,而是合成的,至少對于音節(jié)語音,比如英語來說是這樣。現(xiàn)有的參數(shù)模型一般是信號處理算法Vocoders得到輸出,生成語音信號。

通過直接對原始聲音信號的聲浪建模,WaveNet改變了這種舊范式,每次對一個樣本進行建模。和生成更加自然的語音一樣,使用原始的聲波意味著WaveNet能對任何音頻建模,其中包括音樂。

研究者一般都會避免對原始音頻進行建模,因為音頻跳轉(zhuǎn)得太快了:一般情況下,每秒轉(zhuǎn)變的樣本達到16000個或更多,在許多時間點上,都需要設(shè)置重要的結(jié)構(gòu)。建立一個完全自動回歸的模型顯然是一個充滿挑戰(zhàn)的任務(wù),在這個模型中,對每一個樣本的預(yù)測都會受到此前樣本的影響(在statistics-speak中,每一個預(yù)測的分布都受到此前觀察的限制)。

但是,我們在今年早些時候發(fā)布的PixelRNN 和 PixelCNN 模型,證明使用不止一個像素一次性生成復(fù)雜的自然圖像是可能的,但是一次生成 一個顏色通道,每張圖像都要求成千上萬個預(yù)測。這給了我們靈感,進而把二維的PixelNet 運用到 一維的WaveNet中。?

上面的動畫展示了WaveNet的組織結(jié)構(gòu)。這是一個全卷積的神經(jīng)網(wǎng)絡(luò),當(dāng)中的卷積層有多個擴張因素,允許它的接收域在深度上呈指數(shù)級的增長,覆蓋數(shù)千個時間步長。

在訓(xùn)練時,輸入序列是從人類說話者記錄的真實聲音波形。訓(xùn)練結(jié)束后,我們可以把網(wǎng)絡(luò)作為樣本,產(chǎn)生合成的表達。在取樣的每一個步驟中,值是由網(wǎng)絡(luò)計算的概率分布繪制。然后該值被反饋到輸入,用于下一個步驟的預(yù)測得以制成。這樣按部就班地建立樣品計算成本高昂,但我們發(fā)現(xiàn),在生成復(fù)雜的、逼真的音頻上,這是至關(guān)重要的。

對現(xiàn)狀的提升

我們使用谷歌的TTS數(shù)據(jù)庫來訓(xùn)練WaveNet,這樣我們就能評估它的表現(xiàn),下面的表格展示了從1到5的量級上,WaveNet 的質(zhì)量與谷歌現(xiàn)在較好的TTS系統(tǒng)(參數(shù)的和合成的)的對比,還有一個對比是與人類使用MOS。

MOS是一個用于衡量主觀聲音質(zhì)量測試的標(biāo)準(zhǔn),以人類為對象的盲測中獲得(對100個測試句子的500個評級)。正如我們可以看到的那樣,WaveNets降低了人類表現(xiàn)與機器表現(xiàn)之間的差異,在英語和中文上都將差距縮小了50%以上。

對于中文和英語,谷歌當(dāng)下的TTS系統(tǒng)被認為是世界上較好的,所以用一個模型對二者進行提高是一個很大的成就。

以下wavenet 在中文上的表現(xiàn):

知道說的是什么

為了使用WaveNet 把文本轉(zhuǎn)變成語音,我們必須告訴它文本是什么。我們通過把文本轉(zhuǎn)化成一個語言與聲學(xué)特征序列(這個序列包含了當(dāng)下的聲音、字母、詞匯等),以及,把這一序列喂到WaveNet中,我們可以做到讓模型了解要說什么。這意味著,網(wǎng)絡(luò)的預(yù)測不僅取決于前期的聲音樣本,也取決于我們希望它說的內(nèi)容。

如果我們在沒有文本序列的情況下訓(xùn)練這一網(wǎng)絡(luò),它仍然能生成語音,但是這樣的話它需要辨別要說的是什么。正如你可以在下面的例子中聽到的那樣,結(jié)果有點像在說胡話,其中真實的單詞被類似發(fā)音的聲音打亂。

WaveNets在有些時間還可以生成例如呼吸和嘴部運動這樣的非語言聲音,這也反映了一個原始的音頻模型所擁有的更大的自由度。

如你在這些樣本中所能聽到的一樣,一個單一的WaveNet可以學(xué)習(xí)很多種聲音的特點,不論是男性還是女性。為了確認WaveNet知道在任意的情景下它知道用什么聲音,我們?nèi)タ刂蒲葜v人的身份。有意思的是,我們發(fā)布用很多的演講者是訓(xùn)練這個系統(tǒng),使得它能夠更好的去給單個演講者建模。這比只用一個演講者去訓(xùn)練要強。這是一種形式的遷移學(xué)習(xí)。

同樣的,我們也可以在模型的輸入端給予更多的東西,例如情感或噪音,這樣使得生成的語音可以更多樣化,也更有趣。

生成音樂

既然WaveNets可以用來能任意的音頻信息進行建模,我們就想如果能讓他來生成音樂的話,這樣就更有意思了。和TTS實驗不同,我們沒有給網(wǎng)絡(luò)一個輸入序列,告訴它要去播放什么(例如一個譜子)。相反的,我們只是讓它去生成任意它想生成的東西。當(dāng)我們將它在一個古典鋼琴音樂的數(shù)據(jù)集上進行訓(xùn)練時,它聽上去的效果確定還不錯。

WaveNets為TTS、音樂合成以及音頻建模開啟了更多的可能性。我們已經(jīng)迫不及待地想要去探索更多WaveNets能做的事。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4402.html

相關(guān)文章

  • 從Pix2Code到CycleGAN:2017年深度學(xué)習(xí)重大研究進展全解讀

    摘要:文本谷歌神經(jīng)機器翻譯去年,谷歌宣布上線的新模型,并詳細介紹了所使用的網(wǎng)絡(luò)架構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)。目前唇讀的準(zhǔn)確度已經(jīng)超過了人類。在該技術(shù)的發(fā)展過程中,谷歌還給出了新的,它包含了大量的復(fù)雜案例。谷歌收集該數(shù)據(jù)集的目的是教神經(jīng)網(wǎng)絡(luò)畫畫。 1. 文本1.1 谷歌神經(jīng)機器翻譯去年,谷歌宣布上線 Google Translate 的新模型,并詳細介紹了所使用的網(wǎng)絡(luò)架構(gòu)——循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。關(guān)鍵結(jié)果:與...

    kuangcaibao 評論0 收藏0
  • 它將是你的第二大腦——長文講述谷歌深度學(xué)習(xí)的故事

    摘要:深度學(xué)習(xí)現(xiàn)在被視為能夠超越那些更加直接的機器學(xué)習(xí)的關(guān)鍵一步。的加入只是谷歌那一季一系列重大聘任之一。當(dāng)下谷歌醉心于深度學(xué)習(xí),顯然是認為這將引發(fā)下一代搜索的重大突破。移動計算的出現(xiàn)已經(jīng)迫使谷歌改變搜索引擎的本質(zhì)特征。 Geoffrey Hiton說:我需要了解一下你的背景,你有理科學(xué)位嗎?Hiton站在位于加利福尼亞山景城谷歌園區(qū)辦公室的一塊白板前,2013年他以杰出研究者身份加入這家公司。H...

    jackzou 評論0 收藏0
  • 人工智能時代的降臨

    摘要:周二,白宮發(fā)布了一份關(guān)于人工智能與經(jīng)濟的令人寒心的報告。更重要的是,我們必須超越這種狹隘的思考方式受到人工智能威脅的工作崗位。今年,最矚目的人工智能與人類的對決就來自。然而,人工智能在年碾壓人類的一系列勝利僅僅是個開始。 showImg(https://segmentfault.com/img/remote/1460000008189557?w=1280&h=800); 去年以來關(guān)于人...

    animabear 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<