成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

阿里通義音頻生成大模型 FunAudioLLM 開源!

UCloud小助手 / 453人閱讀

簡介
近年來,人工智能(AI)技術(shù)的進步極大地改變了人類與機器的互動方式,特別是在語音處理領(lǐng)域。阿里巴巴通義實驗室最近開源了一個名為FunAudioLLM的語音大模型項目,旨在促進人類與大型語言模型(LLMs)之間的自然語音交互。FunAudioLLM包含兩個核心模型:SenseVoice和CosyVoice,分別負(fù)責(zé)語音理解和語音生成。
SenseVoice:語音理解模型
SenseVoice是一個功能強大的語音理解模型,支持多種語音處理任務(wù),包括自動語音識別(ASR)、語言識別(LID)、語音情緒識別(SER)和音頻事件檢測(AED)。其主要特點包括:

  • 多語言支持:SenseVoice支持超過50種語言的語音識別。
  • 低延遲:SenseVoice-Small模型具有極低的推理延遲,比Whisper-small快5倍以上,比Whisper-large快15倍以上,適用于實時語音交互應(yīng)用。
  • 高精度:SenseVoice-Large模型在高精度語音識別方面表現(xiàn)出色,適用于需要高精度識別的應(yīng)用。
  • 豐富的語音理解功能:包括情緒識別和音頻事件檢測,為復(fù)雜的語音交互應(yīng)用提供支持。

CosyVoice:語音生成模型
CosyVoice是一個功能強大的語音生成模型,可以生成自然流暢的語音,并支持多種語言、音色、說話風(fēng)格和說話人身份的控制。其主要特點包括:

  • 多語言語音生成:支持中文、英文、日語、粵語和韓語等多種語言的語音生成。
  • 零樣本學(xué)習(xí):可以通過少量參考語音進行語音克隆。
  • 跨語言語音克隆:可以將語音克隆到不同的語言中。
  • 情感語音生成:可以生成情感豐富的語音,如快樂、悲傷、憤怒等。
  • 指令遵循:可以通過指令文本控制語音輸出的各個方面,如說話人身份、說話風(fēng)格和副語言特征。

 訓(xùn)練數(shù)據(jù)

  • SenseVoice:使用了約40萬小時的多語言語音數(shù)據(jù),并通過開源的音頻事件檢測(AED)和語音情緒識別(SER)模型生成偽標(biāo)簽,構(gòu)建了一個包含大量豐富語音識別標(biāo)簽的數(shù)據(jù)集。
  • CosyVoice:使用了多種語言的語音數(shù)據(jù)集,并通過專門的工具進行語音檢測、信噪比(SNR)估計、說話人分割和分離等操作,以提高數(shù)據(jù)質(zhì)量。

實驗結(jié)果
FunAudioLLM在多個語音理解和生成任務(wù)上取得了優(yōu)異的性能:

  • 多語言語音識別:SenseVoice在大多數(shù)測試集上優(yōu)于Whisper模型,特別是在低資源語言上表現(xiàn)更佳。
  • 語音情緒識別:在7個流行的情緒識別數(shù)據(jù)集上表現(xiàn)出色,無需微調(diào)即可獲得高準(zhǔn)確率。
  • 音頻事件檢測:能夠識別語音中的音頻事件,如音樂、掌聲和笑聲。
  • 語音生成質(zhì)量:CosyVoice在內(nèi)容一致性和說話人相似度方面表現(xiàn)出色,生成的語音與原始語音高度一致。

 應(yīng)用場景
FunAudioLLM的SenseVoice和CosyVoice模型可以應(yīng)用于多個場景,包括:

  • 語音翻譯:將輸入語音翻譯成目標(biāo)語言,并生成目標(biāo)語言的語音。
  • 情感語音聊天:識別輸入語音的情緒和音頻事件,并生成與情緒相符的語音。
  • 交互式播客:根據(jù)實時世界知識和內(nèi)容生成播客腳本,并使用CosyVoice合成語音。
  • 有聲讀物:分析文本中的情感和角色,并使用CosyVoice合成具有豐富情感的有聲讀物。

 局限性
盡管FunAudioLLM在多個方面表現(xiàn)出色,但仍存在一些局限性:

  • 低資源語言:SenseVoice在低資源語言上的語音識別準(zhǔn)確率較低。
  • 流式識別:SenseVoice不支持流式語音識別。
  • 語言支持:CosyVoice支持的語言數(shù)量有限。
  • 情感和風(fēng)格推斷:CosyVoice需要明確的指令才能生成特定情緒和風(fēng)格的語音。
  • 唱歌:CosyVoice在唱歌方面表現(xiàn)不佳。
  • 端到端訓(xùn)練:FunAudioLLM的模型不是與LLMs端到端訓(xùn)練的,這可能會引入誤差傳播。

總的來說,F(xiàn)unAudioLLM在語音理解和生成方面展現(xiàn)了強大的能力,為語音交互應(yīng)用提供了新的可能性。通過開源,阿里巴巴希望能夠促進社區(qū)的參與和進一步發(fā)展。


文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/131132.html

相關(guān)文章

  • 能自動化視頻剪輯的開源工具來了!剪輯師、自媒體作者狂喜

    項目簡介Funclip 是阿里巴巴通義實驗室開源的一款視頻剪輯工具,專門用于精準(zhǔn)、便捷的視頻切片。它能夠自動識別視頻中的中文語音并允許用戶根據(jù)語音內(nèi)容來裁剪視頻。該工具使用了阿里巴巴語音識別模型FunASR Paraformer-Large確保了剪輯的精準(zhǔn)性。你可以根據(jù)識別結(jié)果選擇文本片段或說話人進行視頻裁剪。使得視頻剪輯變得非常方便。Funclip不僅支持中文,未來還將支持英文視頻剪輯,是視頻內(nèi)...

    UCloud小助手 評論0 收藏0
  • 直播帶貨模型,開啟自動賣貨的時代!

    Streamer-Sales是一個為直播帶貨主播量身定制的智能工具。它能夠智能分析商品特性,自動創(chuàng)作出引人入勝的解說詞,從而有效增強商品的吸引力和提升銷售業(yè)績。它還具備多種交互功能,比如將主播的語音實時轉(zhuǎn)換為文字,便于與觀眾進行更直接的交流。它還能夠生成富有感情色彩的語音,讓商品介紹更加生動,以及創(chuàng)造虛擬主播的視頻,為觀眾帶來更加直觀和有趣的購物體驗。具體功能1. 主播文案生成:系統(tǒng)能夠基于商品特...

    UCloud小助手 評論0 收藏0
  • 阿里云AI如何助攻世界杯?視頻集錦背后的技術(shù)實踐

    摘要:可預(yù)見的未來激情賽事已經(jīng)過半,阿里云視頻技術(shù)在本次世界杯中也成功落地,而這并不是結(jié)局,這是將視頻應(yīng)用于體育行業(yè)以及更多其他行業(yè)的開端。 本屆世界杯互聯(lián)網(wǎng)直播的順利進行,離不開各大云計算廠商的支持。在這其中,阿里云是當(dāng)之無愧的C位,除了優(yōu)酷外,阿里云還支撐了CNTV、CCTV5客戶端,為全網(wǎng)70%的世界杯直播流量保駕護航。 對于世界杯這種超大觀看量級、超強影響力的重要體育賽事,阿里云一直...

    BothEyes1993 評論0 收藏0
  • 從Pix2Code到CycleGAN:2017年深度學(xué)習(xí)重研究進展全解讀

    摘要:文本谷歌神經(jīng)機器翻譯去年,谷歌宣布上線的新模型,并詳細(xì)介紹了所使用的網(wǎng)絡(luò)架構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)。目前唇讀的準(zhǔn)確度已經(jīng)超過了人類。在該技術(shù)的發(fā)展過程中,谷歌還給出了新的,它包含了大量的復(fù)雜案例。谷歌收集該數(shù)據(jù)集的目的是教神經(jīng)網(wǎng)絡(luò)畫畫。 1. 文本1.1 谷歌神經(jīng)機器翻譯去年,谷歌宣布上線 Google Translate 的新模型,并詳細(xì)介紹了所使用的網(wǎng)絡(luò)架構(gòu)——循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。關(guān)鍵結(jié)果:與...

    kuangcaibao 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<