DeepMind發(fā)布最佳語音神經(jīng)網(wǎng)絡(luò)生成模型，與人差距縮減50%以上

niceforbear 發(fā)布于2019-04-25 18:05 / 2408人閱讀

摘要：正如我們可以看到的那樣，降低了人類表現(xiàn)與機器表現(xiàn)之間的差異，在英語和中文上都將差距縮小了以上。對于中文和英語，谷歌當(dāng)下的系統(tǒng)被認為是世界上較好的，所以用一個模型對二者進行提高是一個很大的成就。

本文介紹的是WaveNet——一個原始音頻波形深度模型。我們展示了，Wavenet能夠生成模仿人類的語音，聽起來要比現(xiàn)有較好的文本到語音轉(zhuǎn)化系統(tǒng)更自然，將與人類表現(xiàn)的差距縮減了50%以上。

在我們的展示中，相同的網(wǎng)絡(luò)能被用于合成其他的音頻信號，比如，音樂。在這里，我們提供了一些樣本——自動生成的鋼琴曲。

會說話的機器

讓人能與機器對話是人機交互長期以來的一個夢想。近年來，隨著深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用（比如，谷歌的語音搜索），計算機理解自然語音的能力取得了革命性的進展。但是，用計算機生成語音仍然大量地依賴于所謂的 TTS （文本到語音）拼接技術(shù)，在這個過程中，首先要記錄一個說話人的聲音片段，并基于此構(gòu)建超大型的數(shù)據(jù)庫，隨后，經(jīng)過再次結(jié)合過程，形成完整的表達。這樣一來，在不紀錄一個完整的新數(shù)據(jù)庫的情況下，要修飾聲音就會變得很困難（比如，轉(zhuǎn)化到不同的說話者，或者轉(zhuǎn)化語音中的情感和語氣）。

這導(dǎo)致了對參數(shù)的 TTS 的大量需求，在這里面，所有生成數(shù)據(jù)所需要的信息都被存儲到模型的參數(shù)中，并且，語音中的內(nèi)容和個性可以通過模型的輸入進行控制。但是，目前為止，參數(shù)的TTS聽起來更多的是不自然的，而是合成的，至少對于音節(jié)語音，比如英語來說是這樣。現(xiàn)有的參數(shù)模型一般是信號處理算法Vocoders得到輸出，生成語音信號。

通過直接對原始聲音信號的聲浪建模，WaveNet改變了這種舊范式，每次對一個樣本進行建模。和生成更加自然的語音一樣，使用原始的聲波意味著WaveNet能對任何音頻建模，其中包括音樂。

研究者一般都會避免對原始音頻進行建模，因為音頻跳轉(zhuǎn)得太快了：一般情況下，每秒轉(zhuǎn)變的樣本達到16000個或更多，在許多時間點上，都需要設(shè)置重要的結(jié)構(gòu)。建立一個完全自動回歸的模型顯然是一個充滿挑戰(zhàn)的任務(wù)，在這個模型中，對每一個樣本的預(yù)測都會受到此前樣本的影響（在statistics-speak中，每一個預(yù)測的分布都受到此前觀察的限制）。

但是，我們在今年早些時候發(fā)布的PixelRNN 和 PixelCNN 模型，證明使用不止一個像素一次性生成復(fù)雜的自然圖像是可能的，但是一次生成一個顏色通道，每張圖像都要求成千上萬個預(yù)測。這給了我們靈感，進而把二維的PixelNet 運用到一維的WaveNet中。?

上面的動畫展示了WaveNet的組織結(jié)構(gòu)。這是一個全卷積的神經(jīng)網(wǎng)絡(luò)，當(dāng)中的卷積層有多個擴張因素，允許它的接收域在深度上呈指數(shù)級的增長，覆蓋數(shù)千個時間步長。

在訓(xùn)練時，輸入序列是從人類說話者記錄的真實聲音波形。訓(xùn)練結(jié)束后，我們可以把網(wǎng)絡(luò)作為樣本，產(chǎn)生合成的表達。在取樣的每一個步驟中，值是由網(wǎng)絡(luò)計算的概率分布繪制。然后該值被反饋到輸入，用于下一個步驟的預(yù)測得以制成。這樣按部就班地建立樣品計算成本高昂，但我們發(fā)現(xiàn)，在生成復(fù)雜的、逼真的音頻上，這是至關(guān)重要的。

對現(xiàn)狀的提升

我們使用谷歌的TTS數(shù)據(jù)庫來訓(xùn)練WaveNet，這樣我們就能評估它的表現(xiàn)，下面的表格展示了從1到5的量級上，WaveNet 的質(zhì)量與谷歌現(xiàn)在較好的TTS系統(tǒng)（參數(shù)的和合成的）的對比，還有一個對比是與人類使用MOS。

MOS是一個用于衡量主觀聲音質(zhì)量測試的標(biāo)準(zhǔn)，以人類為對象的盲測中獲得（對100個測試句子的500個評級）。正如我們可以看到的那樣，WaveNets降低了人類表現(xiàn)與機器表現(xiàn)之間的差異，在英語和中文上都將差距縮小了50%以上。

對于中文和英語，谷歌當(dāng)下的TTS系統(tǒng)被認為是世界上較好的，所以用一個模型對二者進行提高是一個很大的成就。

以下wavenet 在中文上的表現(xiàn)：

知道說的是什么

為了使用WaveNet 把文本轉(zhuǎn)變成語音，我們必須告訴它文本是什么。我們通過把文本轉(zhuǎn)化成一個語言與聲學(xué)特征序列（這個序列包含了當(dāng)下的聲音、字母、詞匯等），以及，把這一序列喂到WaveNet中，我們可以做到讓模型了解要說什么。這意味著，網(wǎng)絡(luò)的預(yù)測不僅取決于前期的聲音樣本，也取決于我們希望它說的內(nèi)容。

如果我們在沒有文本序列的情況下訓(xùn)練這一網(wǎng)絡(luò)，它仍然能生成語音，但是這樣的話它需要辨別要說的是什么。正如你可以在下面的例子中聽到的那樣，結(jié)果有點像在說胡話，其中真實的單詞被類似發(fā)音的聲音打亂。

WaveNets在有些時間還可以生成例如呼吸和嘴部運動這樣的非語言聲音，這也反映了一個原始的音頻模型所擁有的更大的自由度。

如你在這些樣本中所能聽到的一樣，一個單一的WaveNet可以學(xué)習(xí)很多種聲音的特點，不論是男性還是女性。為了確認WaveNet知道在任意的情景下它知道用什么聲音，我們?nèi)タ刂蒲葜v人的身份。有意思的是，我們發(fā)布用很多的演講者是訓(xùn)練這個系統(tǒng)，使得它能夠更好的去給單個演講者建模。這比只用一個演講者去訓(xùn)練要強。這是一種形式的遷移學(xué)習(xí)。

同樣的，我們也可以在模型的輸入端給予更多的東西，例如情感或噪音，這樣使得生成的語音可以更多樣化，也更有趣。

生成音樂

既然WaveNets可以用來能任意的音頻信息進行建模，我們就想如果能讓他來生成音樂的話，這樣就更有意思了。和TTS實驗不同，我們沒有給網(wǎng)絡(luò)一個輸入序列，告訴它要去播放什么（例如一個譜子）。相反的，我們只是讓它去生成任意它想生成的東西。當(dāng)我們將它在一個古典鋼琴音樂的數(shù)據(jù)集上進行訓(xùn)練時，它聽上去的效果確定還不錯。

WaveNets為TTS、音樂合成以及音頻建模開啟了更多的可能性。我們已經(jīng)迫不及待地想要去探索更多WaveNets能做的事。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器大數(shù)據(jù)最佳分析模型大數(shù)據(jù)分析的最佳分析模型語音識別模型 DeepMind

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4402.html

發(fā)表評論

登陸后可評論

0條評論

niceforbear

男|高級講師

我要關(guān)注我要私信

TA的文章

從土木到網(wǎng)絡(luò)安全的轉(zhuǎn)變

閱讀 3767·2021-11-24 09:39
C語言試題八十九之實現(xiàn)插入排序算法

閱讀 1911·2021-11-16 11:45
【遞歸+迭代詳解】二叉樹的morris遍歷、層序遍歷、前序遍歷、中序遍歷、后序遍歷

閱讀 638·2021-11-16 11:45
大學(xué)學(xué)習(xí)路線規(guī)劃建議貼

閱讀 1080·2021-10-11 10:58
SecretFolder – 100%免費文件夾加密和隱藏實用桌面軟件

閱讀 2517·2021-09-09 11:51
前端技術(shù)演進（八）：未來前端趨勢

閱讀 1966·2019-08-30 15:54
xpath&css選擇器

閱讀 717·2019-08-29 13:13
閉包理解

閱讀 3491·2019-08-26 12:18

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

DeepMind發(fā)布最佳語音神經(jīng)網(wǎng)絡(luò)生成模型，與人差距縮減50%以上

相關(guān)文章

從Pix2Code到CycleGAN：2017年深度學(xué)習(xí)重大研究進展全解讀

它將是你的第二大腦——長文講述谷歌深度學(xué)習(xí)的故事

人工智能時代的降臨

發(fā)表評論

0條評論

niceforbear

男|高級講師

TA的文章

從土木到網(wǎng)絡(luò)安全的轉(zhuǎn)變

C語言試題八十九之實現(xiàn)插入排序算法

【遞歸+迭代詳解】二叉樹的morris遍歷、層序遍歷、前序遍歷、中序遍歷、后序遍歷

大學(xué)學(xué)習(xí)路線規(guī)劃建議貼

SecretFolder – 100%免費文件夾加密和隱藏實用桌面軟件

前端技術(shù)演進（八）：未來前端趨勢

xpath&css選擇器

閉包理解

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

DeepMind發(fā)布最佳語音神經(jīng)網(wǎng)絡(luò)生成模型，與人差距縮減50%以上

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

DeepMind發(fā)布最佳語音神經(jīng)網(wǎng)絡(luò)生成模型，與人差距縮減50%以上