語音識別框架最新進(jìn)展——深度全序列卷積神經(jīng)網(wǎng)絡(luò)登場

explorer_ddf 發(fā)布于2019-04-25 18:07 / 2971人閱讀

摘要：目前較好的語音識別系統(tǒng)采用雙向長短時記憶網(wǎng)絡(luò)，，這種網(wǎng)絡(luò)能夠?qū)φZ音的長時相關(guān)性進(jìn)行建模，從而提高識別正確率。因而科大訊飛使用深度全序列卷積神經(jīng)網(wǎng)絡(luò)來克服雙向的缺陷。

人工智能的應(yīng)用中，語音識別在今年來取得顯著進(jìn)步，不管是英文、中文或者其他語種，機(jī)器的語音識別準(zhǔn)確率在不斷上升。其中，語音聽寫技術(shù)的發(fā)展更為迅速，目前已廣泛在語音輸入、語音搜索、語音助手等產(chǎn)品中得到應(yīng)用并日臻成熟。但是，語音應(yīng)用的另一層面，即語音轉(zhuǎn)寫，目前仍存在一定的難點，由于在產(chǎn)生錄音文件的過程中使用者并沒有預(yù)計到該錄音會被用于語音識別，因而與語音聽寫相比，語音轉(zhuǎn)寫將面臨說話風(fēng)格、口音、錄音質(zhì)量等諸多挑戰(zhàn)。

語音轉(zhuǎn)寫的典型場景包括，記者采訪、電視節(jié)目、課堂及交談式會議等等，甚至包括任何人在日常的工作生活中產(chǎn)生的任何錄音文件。語音轉(zhuǎn)寫的市場及想象空間是巨大的，想象一下，如果人類可以征服語音轉(zhuǎn)寫，電視節(jié)目可以自動生動字幕、正式會議可以自動形成記要、記者采訪的錄音可以自動成稿……人的一生中說的話要比我們寫過的字多的多，如果有一個軟件能記錄我們所說過的所有的話并進(jìn)行高效的管理，這個世界將會多么的讓人難以置信。

基于DFCNN的聲學(xué)建模技術(shù)

語音識別的聲學(xué)建模主要用于建模語音信號與音素之間的關(guān)系，科大訊飛繼去年12月21日提出前饋型序列記憶網(wǎng)絡(luò)(FSMN, Feed-forward Sequential Memory Network)作為聲學(xué)建模框架后，今年再次推出全新的語音識別框架，即深度全序列卷積神經(jīng)網(wǎng)絡(luò)（DFCNN，Deep Fully Convolutional NeuralNetwork）。

目前較好的語音識別系統(tǒng)采用雙向長短時記憶網(wǎng)絡(luò)（LSTM，LongShort Term Memory），這種網(wǎng)絡(luò)能夠?qū)φZ音的長時相關(guān)性進(jìn)行建模，從而提高識別正確率。但是雙向LSTM網(wǎng)絡(luò)存在訓(xùn)練復(fù)雜度高、解碼時延高的問題，尤其在工業(yè)界的實時識別系統(tǒng)中很難應(yīng)用。因而科大訊飛使用深度全序列卷積神經(jīng)網(wǎng)絡(luò)來克服雙向LSTM的缺陷。

CNN早在2012年就被用于語音識別系統(tǒng)，但始終沒有大的突破。主要的原因是其使用固定長度的幀拼接作為輸入，無法看到足夠長的語音上下文信息；另外一個缺陷將CNN視作一種特征提取器，因此所用的卷積層數(shù)很少，表達(dá)能力有限。

針對這些問題，DFCNN使用大量的卷積層直接對整句語音信號進(jìn)行建模。首先，在輸入端DFCNN直接將語譜圖作為輸入，相比其他以傳統(tǒng)語音特征作為輸入的語音識別框架相比具有天然的優(yōu)勢。其次，在模型結(jié)構(gòu)上,借鑒了圖像識別的網(wǎng)絡(luò)配置，每個卷積層使用小卷積核，并在多個卷積層之后再加上池化層，通過累積非常多的卷積池化層對，從而可以看到非常長的歷史和未來信息。這兩點保證了DFCNN可以出色的表達(dá)語音的長時相關(guān)性，相比RNN網(wǎng)絡(luò)結(jié)構(gòu)在魯棒性上更加出色，同時可以實現(xiàn)短延時的準(zhǔn)在線解碼，從而可用于工業(yè)系統(tǒng)中。

（DFCNN 結(jié)構(gòu)圖）

口語化和篇章級語言模型處理技術(shù)

語音識別的語言模型主要用于建模音素與字詞之間的對應(yīng)關(guān)系。由于人類的口語為無組織性的自然語言，人們在自由對話時，通常會出現(xiàn)猶豫、回讀、語氣詞等復(fù)雜的語言現(xiàn)象，而以文字形式存在的語料通常為書面語，這兩種之間的鴻溝使得針對口語語言的語言模型建模面臨極大的挑戰(zhàn)。

科大訊飛借鑒了語音識別處理噪聲問題采用加噪訓(xùn)練的思想，即在書面語的基礎(chǔ)上自動引入回讀、倒裝、語氣詞等口語“噪聲”現(xiàn)象，從而可自動生成海量口語語料，解決口語和書面語之間的不匹配問題。首先，收集部分口語文本和書面文本語料對；其次，使用基于Encoder-Decoder的神經(jīng)網(wǎng)絡(luò)框架建模書面語文本與口語文本之間的對應(yīng)關(guān)系，從而實現(xiàn)了口語文本的自動生成。

另外，上下文信息可以較大程度幫助人類對語言的理解，對于機(jī)器轉(zhuǎn)錄也是同樣的道理。因而，科大訊飛在去年12月21提出了篇章級語言模型的方案，該方案根據(jù)語音識別的解碼結(jié)果自動進(jìn)行關(guān)鍵信息抽取，實時進(jìn)行語料搜索和后處理，用解碼結(jié)果和搜索到的語料形成特定語音相關(guān)的語言模型，從而進(jìn)一步提高語音轉(zhuǎn)寫的準(zhǔn)確率。

（篇章級語言模型流程圖）

噪聲和遠(yuǎn)場識別技術(shù)

語音識別的應(yīng)用遠(yuǎn)場拾音和噪聲干擾一直是兩大技術(shù)難題。例如在會議的場景下，如果使用錄音筆進(jìn)行錄音，離錄音筆較遠(yuǎn)說話人的語音即為遠(yuǎn)場帶混響語音，由于混響會使得不同步的語音相互疊加，帶來了音素的交疊掩蔽效應(yīng)，從而嚴(yán)重影響語音識別效果；同樣，如果錄音環(huán)境中存在背景噪聲，語音頻譜會被污染，其識別效果也會急劇下降?？拼笥嶏w針對該問題使用了單麥克及配合麥克風(fēng)陣列兩種硬件環(huán)境下的降噪、解混響技術(shù)，使得遠(yuǎn)場、噪聲情況下的語音轉(zhuǎn)寫也達(dá)到了實用門檻。

單麥克降噪、解混響

對采集到的有損失語音，使用混合訓(xùn)練和基于深度回歸神經(jīng)網(wǎng)絡(luò)降噪解混響結(jié)合的方法。即一方面對干凈的語音進(jìn)行加噪，并與干凈語音一起進(jìn)行混合訓(xùn)練，從而提高模型對于帶噪語音的魯棒性（編者注：Robust的音譯，即健壯和強(qiáng)壯之意）；另一方面，使用基于深度回歸神經(jīng)網(wǎng)絡(luò)進(jìn)行降噪和解混響，進(jìn)一步提高帶噪、遠(yuǎn)場語音的識別正確率。

麥克風(fēng)陣列降噪、解混響

僅僅考慮在語音處理過程中的噪音可以說是治標(biāo)不治本，如何從源頭上解決混響和降噪似乎才是問題的關(guān)鍵。面對這一難題，科大訊飛研發(fā)人員通過在錄音設(shè)備上加上多麥克陣列，利用多麥克陣列進(jìn)行降噪與解混響。具體地，使用多個麥克風(fēng)采集多路時頻信號，利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)波束形成，從而在目標(biāo)信號的方向形成一個拾音波束，并衰減來自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結(jié)合，可以進(jìn)一步顯著的提高帶噪、遠(yuǎn)場語音的識別正確率。

文本處理實時糾錯+文字后處理

前面所說的都只是對于語音的處理技術(shù)，即將錄音轉(zhuǎn)錄成文字，但正如上文所述人類的口語為無組織性的自然語言，即使在語音轉(zhuǎn)寫正確率非常高的情況下，語音轉(zhuǎn)寫文本的可閱讀性仍存在較大的問題，所以文本后處理的重要性就體現(xiàn)了出來。所謂文本后處理即對口語化的文本進(jìn)行分句、分段，并對文本內(nèi)容的流利性進(jìn)行處理，甚至進(jìn)行內(nèi)容的摘要，以利于更好的閱讀與編輯。

后處理Ⅰ：分句與分段

分句，即對轉(zhuǎn)寫文本按語義進(jìn)行子句劃分，并在子句之間加注標(biāo)點；分段，即將一篇文本切分成若干個語義段落，每個段落描述的子主題各不相同。

通過提取上下文相關(guān)的語義特征，同時結(jié)合語音特征，來進(jìn)行子句與段落的劃分；考慮到有標(biāo)注的語音數(shù)據(jù)較難獲得，在實際運(yùn)用中科大訊飛利用兩級級聯(lián)雙向長短時記憶網(wǎng)絡(luò)建模技術(shù)，從而較好的解決了分句與分段問題。

后處理Ⅱ：內(nèi)容順滑

內(nèi)容順滑，又稱為不流暢檢測，即剔除轉(zhuǎn)寫結(jié)果中的停頓詞、語氣詞、重復(fù)詞，使順滑后的文本更易于閱讀。

科大訊飛通過使用泛化特征并結(jié)合雙向長短時記憶網(wǎng)絡(luò)建模技術(shù)，使得內(nèi)容順滑的準(zhǔn)確率達(dá)到了實用階段。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器谷歌圖像識別最新進(jìn)展基于深度學(xué)習(xí)的圖像識別進(jìn)展卷積神經(jīng)網(wǎng)絡(luò)圖像識別最新進(jìn)展

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4447.html

發(fā)表評論

登陸后可評論

0條評論

explorer_ddf

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow1.14對應(yīng)的keras版本

閱讀 834·2023-04-25 22:13
微信小程序常遇問題收集

閱讀 2347·2019-08-30 15:56
移動端border：1px問題解決方案

閱讀 2229·2019-08-30 11:21
「翻譯」逐步替換Sass

閱讀 658·2019-08-30 11:13
一套基于vue2.0高質(zhì)量的UI框架，前期開發(fā)中

閱讀 2024·2019-08-26 14:06
微信JS-SDK選擇圖片遇到的坑

閱讀 1962·2019-08-26 12:11
常用的JavaScript編程風(fēng)格

閱讀 2293·2019-08-23 16:55
【前端基礎(chǔ)進(jìn)階】JS原型、原型鏈、對象詳解

閱讀 542·2019-08-23 15:30

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

語音識別框架最新進(jìn)展——深度全序列卷積神經(jīng)網(wǎng)絡(luò)登場

相關(guān)文章

極驗驗證:淺析深度學(xué)習(xí)模型與應(yīng)用

谷歌大神Jeff Dean：大規(guī)模深度學(xué)習(xí)最新進(jìn)展

深度學(xué)習(xí)綜述

**從Pix2Code到CycleGAN：2017年深度學(xué)習(xí)重大研究進(jìn)展全解讀**

達(dá)觀數(shù)據(jù)特聘專家復(fù)旦大學(xué)黃萱菁教授帶你了解自然語言理解中的表示學(xué)習(xí)

發(fā)表評論

0條評論

explorer_ddf

男|高級講師

TA的文章

tensorflow1.14對應(yīng)的keras版本

微信小程序常遇問題收集

移動端border：1px問題解決方案

「翻譯」逐步替換Sass

一套基于vue2.0高質(zhì)量的UI框架，前期開發(fā)中

微信JS-SDK選擇圖片遇到的坑

常用的JavaScript編程風(fēng)格

【前端基礎(chǔ)進(jìn)階】JS原型、原型鏈、對象詳解

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

語音識別框架最新進(jìn)展——深度全序列卷積神經(jīng)網(wǎng)絡(luò)登場

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！