阿里通義音頻生成大模型 FunAudioLLM 開源！

UCloud小助手發(fā)布于2024-07-12 16:57 / 453人閱讀

簡介

近年來，人工智能（AI）技術(shù)的進步極大地改變了人類與機器的互動方式，特別是在語音處理領(lǐng)域。阿里巴巴通義實驗室最近開源了一個名為FunAudioLLM的語音大模型項目，旨在促進人類與大型語言模型（LLMs）之間的自然語音交互。FunAudioLLM包含兩個核心模型：SenseVoice和CosyVoice，分別負(fù)責(zé)語音理解和語音生成。

SenseVoice：語音理解模型

SenseVoice是一個功能強大的語音理解模型，支持多種語音處理任務(wù)，包括自動語音識別（ASR）、語言識別（LID）、語音情緒識別（SER）和音頻事件檢測（AED）。其主要特點包括：

多語言支持：SenseVoice支持超過50種語言的語音識別。
低延遲：SenseVoice-Small模型具有極低的推理延遲，比Whisper-small快5倍以上，比Whisper-large快15倍以上，適用于實時語音交互應(yīng)用。
高精度：SenseVoice-Large模型在高精度語音識別方面表現(xiàn)出色，適用于需要高精度識別的應(yīng)用。
豐富的語音理解功能：包括情緒識別和音頻事件檢測，為復(fù)雜的語音交互應(yīng)用提供支持。

CosyVoice：語音生成模型

CosyVoice是一個功能強大的語音生成模型，可以生成自然流暢的語音，并支持多種語言、音色、說話風(fēng)格和說話人身份的控制。其主要特點包括：

多語言語音生成：支持中文、英文、日語、粵語和韓語等多種語言的語音生成。
零樣本學(xué)習(xí)：可以通過少量參考語音進行語音克隆。
跨語言語音克隆：可以將語音克隆到不同的語言中。
情感語音生成：可以生成情感豐富的語音，如快樂、悲傷、憤怒等。
指令遵循：可以通過指令文本控制語音輸出的各個方面，如說話人身份、說話風(fēng)格和副語言特征。

訓(xùn)練數(shù)據(jù)

SenseVoice：使用了約40萬小時的多語言語音數(shù)據(jù)，并通過開源的音頻事件檢測（AED）和語音情緒識別（SER）模型生成偽標(biāo)簽，構(gòu)建了一個包含大量豐富語音識別標(biāo)簽的數(shù)據(jù)集。
CosyVoice：使用了多種語言的語音數(shù)據(jù)集，并通過專門的工具進行語音檢測、信噪比（SNR）估計、說話人分割和分離等操作，以提高數(shù)據(jù)質(zhì)量。

實驗結(jié)果

FunAudioLLM在多個語音理解和生成任務(wù)上取得了優(yōu)異的性能：

多語言語音識別：SenseVoice在大多數(shù)測試集上優(yōu)于Whisper模型，特別是在低資源語言上表現(xiàn)更佳。
語音情緒識別：在7個流行的情緒識別數(shù)據(jù)集上表現(xiàn)出色，無需微調(diào)即可獲得高準(zhǔn)確率。
音頻事件檢測：能夠識別語音中的音頻事件，如音樂、掌聲和笑聲。
語音生成質(zhì)量：CosyVoice在內(nèi)容一致性和說話人相似度方面表現(xiàn)出色，生成的語音與原始語音高度一致。

應(yīng)用場景

FunAudioLLM的SenseVoice和CosyVoice模型可以應(yīng)用于多個場景，包括：

語音翻譯：將輸入語音翻譯成目標(biāo)語言，并生成目標(biāo)語言的語音。
情感語音聊天：識別輸入語音的情緒和音頻事件，并生成與情緒相符的語音。
交互式播客：根據(jù)實時世界知識和內(nèi)容生成播客腳本，并使用CosyVoice合成語音。
有聲讀物：分析文本中的情感和角色，并使用CosyVoice合成具有豐富情感的有聲讀物。

局限性

盡管FunAudioLLM在多個方面表現(xiàn)出色，但仍存在一些局限性：

低資源語言：SenseVoice在低資源語言上的語音識別準(zhǔn)確率較低。
流式識別：SenseVoice不支持流式語音識別。
語言支持：CosyVoice支持的語言數(shù)量有限。
情感和風(fēng)格推斷：CosyVoice需要明確的指令才能生成特定情緒和風(fēng)格的語音。
唱歌：CosyVoice在唱歌方面表現(xiàn)不佳。
端到端訓(xùn)練：FunAudioLLM的模型不是與LLMs端到端訓(xùn)練的，這可能會引入誤差傳播。

總的來說，F(xiàn)unAudioLLM在語音理解和生成方面展現(xiàn)了強大的能力，為語音交互應(yīng)用提供了新的可能性。通過開源，阿里巴巴希望能夠促進社區(qū)的參與和進一步發(fā)展。

云服務(wù)器 GPU算力平臺 webrtc音頻開源大數(shù)據(jù)模型大數(shù)據(jù)數(shù)據(jù)模型大數(shù)據(jù)模型分析

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/131132.html

發(fā)表評論

登陸后可評論

0條評論

UCloud小助手

男|高級講師

我要關(guān)注我要私信

TA的文章

服務(wù)器常用端口大全

閱讀 177·2024-11-07 17:59
又來!OpenAI 宮斗大戲曝光,首席技術(shù)官Mira 離職

閱讀 225·2024-09-27 16:59
2.4K star的GOT-OCR2.0：端到端OCR 模型

閱讀 357·2024-09-23 10:37
Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

閱讀 403·2024-09-14 16:58
Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

閱讀 267·2024-09-14 16:58
網(wǎng)頁開發(fā)助手——自動編寫運行代碼

閱讀 371·2024-08-29 18:47
一直爆料OpenAI「草莓」的賬號，竟然是個智能體？Agent Q橫空出世，AI界新秀or營銷大師

閱讀 603·2024-08-16 14:40
傳媒人必備：不花錢的AI開源視頻神助攻

閱讀 323·2024-08-14 17:54

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

阿里通義音頻生成大模型 FunAudioLLM 開源！

相關(guān)文章

能自動化視頻剪輯的開源工具來了！剪輯師、自媒體作者狂喜

直播帶貨大模型，開啟自動賣貨的時代！

阿里云AI如何助攻世界杯？視頻集錦背后的技術(shù)實踐

從Pix2Code到CycleGAN：2017年深度學(xué)習(xí)重大研究進展全解讀

發(fā)表評論

0條評論

UCloud小助手

男|高級講師

TA的文章

服務(wù)器常用端口大全

又來!OpenAI 宮斗大戲曝光,首席技術(shù)官Mira 離職

2.4K star的GOT-OCR2.0：端到端OCR 模型

Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

網(wǎng)頁開發(fā)助手——自動編寫運行代碼

一直爆料OpenAI「草莓」的賬號，竟然是個智能體？Agent Q橫空出世，AI界新秀or營銷大師

傳媒人必備：不花錢的AI開源視頻神助攻

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

阿里通義音頻生成大模型 FunAudioLLM 開源！

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

阿里通義音頻生成大模型 FunAudioLLM 開源！