摘要:這是機(jī)器學(xué)習(xí)課程中的一個(gè)典型例子,他把演講者的聲音和背景音樂(lè)分開(kāi)。雖然用于啟動(dòng)檢測(cè)的技術(shù)主要依賴于音頻特征工程和機(jī)器學(xué)習(xí),但在這里可以很容易地使用深度學(xué)習(xí)來(lái)優(yōu)化結(jié)果。
介紹
想象一個(gè)能理解你想要什么,且當(dāng)你打電話給客戶服務(wù)中心時(shí)能理解你的感受的機(jī)器--如果你對(duì)某件事感到不高興,你可以很快地和一個(gè)人交談。如果您正在尋找特定的信息,您可能不需要與某人交談(除非您愿意!)。
這將是世界的新秩序--你已經(jīng)可以看到這種情況在很好的程度上發(fā)生了。看看2017年數(shù)據(jù)科學(xué)行業(yè)的亮點(diǎn)。你可以看到深度學(xué)習(xí)帶來(lái)的突破,這是以前很難解決的領(lǐng)域。深入學(xué)習(xí)有潛力幫助解決的一個(gè)領(lǐng)域是音頻/語(yǔ)音處理,尤其是因?yàn)樗姆墙Y(jié)構(gòu)化性質(zhì)和巨大的影響。
因此,對(duì)于那些好奇的人,我已經(jīng)編制了一份清單,當(dāng)你開(kāi)始音頻處理時(shí),這些任務(wù)是值得你去處理的。我相信在使用深度學(xué)習(xí)的時(shí)候會(huì)有更多的突破。
這篇文章的結(jié)構(gòu)是為了解釋每一項(xiàng)任務(wù)及其重要性。還有一篇研究論文,詳細(xì)介紹了這一具體任務(wù),并附有一份案例研究,它將幫助你開(kāi)始解決這個(gè)問(wèn)題。
所以我們開(kāi)始吧!
音頻分類是音頻處理領(lǐng)域的一個(gè)基本問(wèn)題。任務(wù)本質(zhì)上是從音頻中提取特征,然后識(shí)別音頻屬于哪個(gè)類。與音頻分類相關(guān)的許多有用的應(yīng)用可以自行找到--例如類型分類、樂(lè)器識(shí)別和藝術(shù)家識(shí)別。
這個(gè)任務(wù)也是音頻處理中探索最多的話題。去年在這個(gè)領(lǐng)域發(fā)表了大量的論文。事實(shí)上,我們還舉辦了一次社區(qū)協(xié)作實(shí)踐黑客馬拉松,以解決這一特殊任務(wù)。
白皮書(shū)?–?http://ieeexplore.ieee.org/document/5664796/?reload=true
解決音頻分類問(wèn)題的一種常用方法是對(duì)音頻輸入進(jìn)行預(yù)處理,提取有用的特征,然后應(yīng)用分類算法對(duì)其進(jìn)行分類。例如,在下面的案例研究中,我們得到了一個(gè)聲音的5秒摘錄,任務(wù)是確定它屬于哪一類--無(wú)論是狗叫聲還是鉆孔聲。正如本文所提到的,解決這個(gè)問(wèn)題的方法是提取一個(gè)名為MFCC的音頻特征,然后通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)傳遞它以得到適當(dāng)?shù)念悺?
案例研究–?https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/
2. 音頻指紋
音頻指紋的目的是確定音頻的數(shù)字“摘要”。這是為了從音頻樣本中識(shí)別音頻。Shazam是音頻指紋應(yīng)用的一個(gè)很好的例子。它根據(jù)一首歌的前兩到五秒來(lái)識(shí)別音樂(lè)。然而,仍然存在系統(tǒng)故障的情況,特別是在背景噪聲很大的情況下。
白皮書(shū)?–?http://www.cs.toronto.edu/~dross/ChandrasekharSharifiRoss_ISMIR2011.pdf
要解決這個(gè)問(wèn)題,一種方法是可以用不同的方式來(lái)表示音頻,這樣就可以很容易地破解音頻。然后,然后,我們可以找出區(qū)分音頻和背景噪聲的模式。在下面的案例研究中,作者將原始音頻轉(zhuǎn)換為光譜圖,然后使用峰值查找和指紋哈希算法來(lái)定義音頻文件的指紋。
案例研究–?http://willdrevo.com/fingerprinting-and-audio-recognition-with-python/
3. 自動(dòng)音樂(lè)標(biāo)注
音樂(lè)標(biāo)記是音頻分類的一個(gè)更復(fù)雜的版本。在這里,我們可以有多個(gè)類,每個(gè)音頻可能屬于多標(biāo)簽分類問(wèn)題。此任務(wù)的一個(gè)潛在應(yīng)用程序可以是為音頻創(chuàng)建元數(shù)據(jù),以便稍后搜索。深入學(xué)習(xí)在一定程度上幫助解決了這一問(wèn)題,這可以從下面的案例研究中看到。
白皮書(shū)–?https://link.springer.com/article/10.1007/s10462-012-9362-y
從大多數(shù)任務(wù)中可以看出,第一步總是從音頻示例中提取特性。然后,根據(jù)音頻的細(xì)微差別對(duì)其進(jìn)行排序(例如,如果音頻包含比歌手的聲音更多的器樂(lè)噪音,則標(biāo)記可以是“器樂(lè)”)。這可以通過(guò)機(jī)器學(xué)習(xí)或深入學(xué)習(xí)的方法來(lái)完成。下面的案例研究利用深度學(xué)習(xí)來(lái)解決這個(gè)問(wèn)題,特別是卷積遞歸神經(jīng)網(wǎng)絡(luò)和MEL頻率提取。
案例研究?–?https://github.com/keunwoochoi/music-auto_tagging-keras
切分字面上是指根據(jù)定義的一組特征將特定的對(duì)象劃分為部分(或部分)。分割,尤其是音頻數(shù)據(jù)分析,是一個(gè)重要的預(yù)處理步驟。這是因?yàn)槲覀兛梢苑指钜粋€(gè)有噪聲和冗長(zhǎng)的音頻信號(hào)為短的均勻段(方便的短序列音頻),用于進(jìn)一步的處理。該任務(wù)的一個(gè)應(yīng)用是心音分割,即識(shí)別特定于心臟的聲音。
白皮書(shū)–?http://www.mecs-press.org/ijitcs/ijitcs-v6-n11/IJITCS-V6-N11-1.pdf
我們可以將其轉(zhuǎn)化為一個(gè)有監(jiān)督的學(xué)習(xí)問(wèn)題,其中每個(gè)時(shí)間戳都可以根據(jù)所需的片段進(jìn)行分類。然后,我們可以應(yīng)用音頻分類方法來(lái)解決這件餓個(gè)問(wèn)題。在下面的案例研究中,任務(wù)是將心音分割成兩個(gè)部分(lub和dub),以便我們可以識(shí)別每個(gè)部分中的異常。利用音頻特征提取可以來(lái)解決該問(wèn)題,再利用深度學(xué)習(xí)進(jìn)行分類。
案例研究–?https://www.analyticsvidhya.com/blog/2017/11/heart-sound-segmentation-deep-learning/
5. 聲源分離
聲源分離包括將一個(gè)或多個(gè)源信號(hào)從混合信號(hào)中分離出來(lái)。其中最常見(jiàn)的應(yīng)用之一是同時(shí)識(shí)別音頻中的歌詞,以便進(jìn)行同聲翻譯(例如卡拉OK)。這是Andrew Ng機(jī)器學(xué)習(xí)課程中的一個(gè)典型例子,他把演講者的聲音和背景音樂(lè)分開(kāi)。
白皮書(shū)?–?http://ijcert.org/ems/ijcert_papers/V3I1103.pdf
典型的使用場(chǎng)景包括:
加載音頻文件
計(jì)算時(shí)頻變換以獲得譜圖,以及
使用一些源分離算法(如非負(fù)矩陣因式分解)來(lái)獲得時(shí)頻掩碼。
然后用頻譜圖將掩模相乘,結(jié)果被轉(zhuǎn)換回時(shí)域。
案例研究–?https://github.com/IoSR-Surrey/untwist
顧名思義,這里的目標(biāo)是跟蹤音頻文件集合中每個(gè)節(jié)拍的位置。拍頻跟蹤可以用于自動(dòng)完成必須按順序完成的耗時(shí)任務(wù),以使事件與音樂(lè)同步。它在各種應(yīng)用中都很有用,如視頻編輯、音頻編輯和人機(jī)即興創(chuàng)作.
白皮書(shū)?–?https://www.audiolabs-erlangen.de/content/05-fau/professor/00-mueller/01-students/2012_GroschePeter_MusicSignalProcessing_PhD-Thesis.pdf
解決拍頻跟蹤問(wèn)題的一種方法是解析音頻文件,并使用起始檢測(cè)算法跟蹤拍頻。雖然用于啟動(dòng)檢測(cè)的技術(shù)主要依賴于音頻特征工程和機(jī)器學(xué)習(xí),但在這里可以很容易地使用深度學(xué)習(xí)來(lái)優(yōu)化結(jié)果。
案例研究–?https://github.com/adamstark/BTrack
多虧了互聯(lián)網(wǎng),我們現(xiàn)在有數(shù)百萬(wàn)首歌曲可以隨時(shí)收聽(tīng)。具有諷刺意味的是,這使得發(fā)現(xiàn)新音樂(lè)變得更加困難,因?yàn)橛刑嗟倪x擇。音樂(lè)推薦系統(tǒng)通過(guò)自動(dòng)向聽(tīng)眾推薦新音樂(lè)來(lái)幫助處理這種信息過(guò)載。像Spotify和Saavn這樣的內(nèi)容提供商已經(jīng)開(kāi)發(fā)了高度復(fù)雜的音樂(lè)推薦引擎。這些模型利用用戶過(guò)去的偵聽(tīng)歷史以及許多其他特性來(lái)構(gòu)建定制的推薦列表。
白皮書(shū)?–?https://pdfs.semanticscholar.org/7442/c1ebd6c9ceafa8979f683c5b1584d659b728.pdf
我們可以通過(guò)訓(xùn)練一個(gè)回歸/深入學(xué)習(xí)模型來(lái)應(yīng)對(duì)定制聽(tīng)力偏好的挑戰(zhàn)。這可以用來(lái)預(yù)測(cè)從協(xié)作過(guò)濾模型中獲得的歌曲的潛在表現(xiàn)形式。這樣,即使沒(méi)有可用的使用數(shù)據(jù),我們也可以預(yù)測(cè)協(xié)作過(guò)濾空間中歌曲的表示。
案例研究–?http://benanne.github.io/2014/08/05/spotify-cnns.html
音樂(lè)檢索是音頻處理中最困難的任務(wù)之一,其本質(zhì)是建立一個(gè)基于音頻的搜索引擎。盡管我們可以通過(guò)解決音頻指紋之類的子任務(wù)來(lái)完成這個(gè)任務(wù),但是這個(gè)任務(wù)包含了更多的內(nèi)容。例如,對(duì)于不同類型的音樂(lè)檢索,我們還必須解決不同的小任務(wù)(音色檢測(cè)對(duì)于性別識(shí)別來(lái)說(shuō)是很好的)。目前,還沒(méi)有其他系統(tǒng)能夠達(dá)到業(yè)界預(yù)期的標(biāo)準(zhǔn)。
白皮書(shū)–?http://www.nowpublishers.com/article/Details/INR-042
音樂(lè)檢索的任務(wù)分為較小和更簡(jiǎn)單的步驟,包括音調(diào)分析(如旋律和和聲)和韻律或節(jié)奏(例如,節(jié)拍跟蹤)。然后,在此基礎(chǔ)上,提取出用于檢索相似音頻樣本的信息。
案例研究–?https://youtu.be/oGGVvTgHMHw
9.音樂(lè)轉(zhuǎn)錄
音樂(lè)轉(zhuǎn)錄是另一個(gè)具有挑戰(zhàn)性的音頻處理任務(wù)。它包括注釋音頻和創(chuàng)建一種“片段”,以便在稍后的時(shí)間從它產(chǎn)生音樂(lè)。從錄音中抄錄音樂(lè)所涉及的手工工作可能是巨大的。這取決于音樂(lè)的復(fù)雜性,我們的聽(tīng)力技能有多好,以及我們希望我們的轉(zhuǎn)錄有多詳細(xì)。
白皮書(shū)?–?http://ieeexplore.ieee.org/abstract/document/7955698
音樂(lè)轉(zhuǎn)錄的方法類似于語(yǔ)音識(shí)別的方法,即將音符轉(zhuǎn)錄成樂(lè)器的抒情節(jié)錄。
案例研究–?https://youtu.be/9boJ-Ai6QFM
起始檢測(cè)是分析音頻/音樂(lè)序列的第一步。對(duì)于上面提到的大多數(shù)任務(wù),執(zhí)行起始檢測(cè)(即檢測(cè)音頻事件的開(kāi)始)是有必要的。從本質(zhì)上說(shuō),起效檢測(cè)是研究人員在音頻處理中要解決的第一項(xiàng)任務(wù)。
白皮書(shū)?–?http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.332.989&rep=rep1&type=pdf
起始檢測(cè)通常有以下步驟:
計(jì)算譜新穎性函數(shù) 譜新奇函數(shù)中的峰發(fā)現(xiàn) 從每個(gè)峰回溯到前一個(gè)局部極小值?;厮輰?duì)于尋找分割點(diǎn)是很有用的,這樣就可以在片段開(kāi)始后不久發(fā)生。案例研究–?https://musicinformationretrieval.com/onset_detection.html
在本文中,我提到了一些在解決音頻處理問(wèn)題時(shí)可以考慮的任務(wù)。我希望你在處理音頻/演講相關(guān)項(xiàng)目時(shí)能發(fā)現(xiàn)這篇文章很有見(jiàn)地。
英文原文:https://www.analyticsvidhya.com/blog/2018/01/10-audio-processing-projects-applications/
歡迎加入本站公開(kāi)興趣群
商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4730.html
摘要:深度學(xué)習(xí)自動(dòng)找到對(duì)分類重要的特征,而在機(jī)器學(xué)習(xí),我們必須手工地給出這些特征。數(shù)據(jù)依賴深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)最重要的區(qū)別在于數(shù)據(jù)量增長(zhǎng)下的表現(xiàn)差異。這是深度學(xué)習(xí)一個(gè)特別的部分,也是傳統(tǒng)機(jī)器學(xué)習(xí)主要的步驟。 前言 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)現(xiàn)在很火!突然間每個(gè)人都在討論它們-不管大家明不明白它們的不同! 不管你是否積極緊貼數(shù)據(jù)分析,你都應(yīng)該聽(tīng)說(shuō)過(guò)它們。 正好展示給你要關(guān)注它們的點(diǎn),這里...
閱讀 3703·2021-09-07 10:19
閱讀 3644·2021-09-03 10:42
閱讀 3595·2021-09-03 10:28
閱讀 2562·2019-08-29 14:11
閱讀 823·2019-08-29 13:54
閱讀 1607·2019-08-29 12:14
閱讀 430·2019-08-26 12:12
閱讀 3627·2019-08-26 10:45