過去我們讓AI說話,它給出的總是不咸不淡的機(jī)器合成聲音,毫無波瀾的死板音調(diào)讓人聽得昏昏欲睡。但由于chatTTS的到來,一切都將會變得不一樣。作為一款強(qiáng)大的對話式文本轉(zhuǎn)語音模型,它完美解決了用戶對于生動對話的需求。如此功能不可小覷,可以稱得上在業(yè)界一騎絕塵。對于短視頻內(nèi)容創(chuàng)作,有聲小說配音,數(shù)字營銷推廣以及日常辦公,它都可以成為強(qiáng)有力的助手。此外,該項目還衍生出音色抽卡,長文本推理,角色扮演等功能。
項目簡介
ChatTTS由2noise推出,是專門為對話場景設(shè)計的文本轉(zhuǎn)語音模型,例如LLM助手對話任務(wù)。使用非常簡單,只需輸入文本和信息,就可以生成相應(yīng)的語音文件。它同時支持英文和中文,兩種語言的發(fā)聲效果都非常良好,甚至你可以輸入中英文混搭的語句,它也能切換自如,輕松駕馭。
ChatTTS的訓(xùn)練量也是十分驚人。最大的模型使用了10萬小時以上的中英文數(shù)據(jù)進(jìn)行訓(xùn)練。在HuggingFace中開源的版本為4萬小時訓(xùn)練且未SFT的版本。
ChatTTS非常適合處理通常分配給大型語言模型LLM的對話框任務(wù)。當(dāng)集成到各種應(yīng)用程序和服務(wù)中時,它可以生成對話響應(yīng),并提供更自然、更流暢的交互體驗(yàn)。
核心功能
1. ChatTTS文本轉(zhuǎn)語音
ChatTTS能夠生成自然流暢的語音,輸入的文本里允許加入笑聲 [laugh] 和停頓 [uv_break] 作為韻律標(biāo)記,可操作性很強(qiáng)。有了這些停頓和語氣詞等副語言現(xiàn)象,它聽起來就像是我們在日常生活中的自然交流。它的發(fā)聲也是不拘一格,比如你提問四川當(dāng)?shù)赜心男┟朗常o出的回答還會帶有一點(diǎn)口音!
(幾個示例https://colab.research.google.com/github/Kedreamix/ChatTTS/blob/main/ChatTTS_infer.ipynb#scrollTo=_xrONBIj9oxo)
如果讓它朗讀/陳述信息,可以聽到音質(zhì)相當(dāng)不錯,聲音清晰飽滿,背景噪音較少,語速適中,聲調(diào)平穩(wěn),英文發(fā)音頗為地道。。。這簡直是廣播電臺的播音員無疑了!當(dāng)然,也存在發(fā)音詞帶有吞音之類的問題,不過還是瑕不掩瑜。
如果讓它讀故事,那聽起來真是抑揚(yáng)頓挫,它時而提升聲調(diào)突出重點(diǎn),時而放緩過渡,同時也能處理好斷句。
總的來說,ChatTTS針對對話式任務(wù)進(jìn)行了優(yōu)化,實(shí)現(xiàn)了自然流暢的語音合成,同時支持多說話人。生成效果上,不論是語調(diào)還是語氣的變化,都比較細(xì)膩,非常接近真人的說話方式,不會停留在單一的音調(diào)上顯得生硬。整體上聲音很連貫,不會有別扭的感覺。
2.細(xì)粒度控制--韻律調(diào)整:
該模型能夠預(yù)測和控制細(xì)粒度的韻律特征,包括笑聲、停頓和插入詞等。前面我們有提到過韻律特征:停頓和笑聲,實(shí)際上模型有許許多多種韻律的調(diào)整,不僅限于文本里常見的附加[uv_break]和[laugh](實(shí)際上笑聲也有三種,[laugh_0]、[laugh_1]、[laugh_2]),還有[music]、[pure]、[oral_0]、[speed_3]、[Stts]、[Ptts]等,標(biāo)記處上下文都會受到程度不一的影響,這樣可以很好地做到控制情緒的表達(dá)而不顯突兀。當(dāng)然,目前運(yùn)用參數(shù)自動地對文本的預(yù)處理還是不夠精細(xì)的,可能還是需要一定的人工處理,不然將會更為理想。
言而總之,這個模型可以精確控制韻律元素包括笑聲,停頓和語調(diào)等韻律元素。
項目實(shí)操
基礎(chǔ)用法
import ChatTTS from IPython.display import Audio chat = ChatTTS.Chat() chat.load_models(compile=False) # Set to True for better performance texts = ["PUT YOUR TEXT HERE",] wavs = chat.infer(texts, ) torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)
進(jìn)階用法
說話人生成的主要方法是先從高斯噪聲中采樣,然后得到一個固定長度的說話人向量,最后作為額外的信息,輸入到網(wǎng)絡(luò)。給出的項目音色本來是不能固定的,但我們可以通過固定隨機(jī)種子,將音色固定,解決音色過于隨機(jī)的問題
################################### # Sample a speaker from Gaussian. rand_spk = chat.sample_random_speaker() params_infer_code = { 'spk_emb': rand_spk, # add sampled speaker 'temperature': .3, # using custom temperature 'top_P': 0.7, # top P decode 'top_K': 20, # top K decode } ################################### # For sentence level manual control. # use oral_(0-9), laugh_(0-2), break_(0-7) # to generate special token in text to synthesize. params_refine_text = { 'prompt': '[oral_2][laugh_0][break_6]' } wav = chat.infer(texts, params_refine_text=params_refine_text, params_infer_code=params_infer_code) ################################### # For word level manual control. text = 'What is [uv_break]your favorite english food?[laugh][lbreak]' wav = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text, params_infer_code=params_infer_code) torchaudio.save("output2.wav", torch.from_numpy(wavs[0]), 24000)
如有興趣可以點(diǎn)擊以下鏈接了解更多細(xì)節(jié):
https://github.com/2noise/ChatTTS/blob/main/README_CN.md
https://github.com/ultrasev/ChatTTS/blob/master/README.md
https://colab.research.google.com/github/Kedreamix/ChatTTS/blob/main/ChatTTS_infer.ipynb#scrollTo=_xrONBIj9oxo
推薦使用NVIDIA RTX 40 顯卡做模型推理,購買地址如下:
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/131102.html
摘要:本文借助發(fā)布的數(shù)字營銷趨勢報告,從廣告的發(fā)展趨勢和尚存問題講起,引出前端開發(fā)在未來應(yīng)該逐漸的所處的角色和應(yīng)該承擔(dān)的責(zé)任。總結(jié)本文描述了廣告在年的發(fā)展趨勢和當(dāng)前存在的問題,并在廣告的渲染,監(jiān)測和上報上闡述了前端可以努力的方向。 上個周寫個篇文章《一篇文章了解廣告全鏈路》,在其中我們討論了數(shù)字營銷中廣告是如何售賣的,以及廣告的實(shí)時競價和庫存算法。但是,其實(shí)上面那篇文章還沒有完結(jié),它還缺了一...
摘要:中國聯(lián)通對邊緣云的實(shí)踐在國內(nèi)運(yùn)營商中比較領(lǐng)先。目前,中國聯(lián)通在天津建成了全國最大的邊緣云測試床,驗(yàn)證邊緣云相關(guān)技術(shù)能力。自研平臺是目前中國聯(lián)通邊緣云的重要任務(wù)。目前,中國聯(lián)通平臺已商用部署于天津?qū)氎嫔暇╉槇@邊緣機(jī)房。5G網(wǎng)路與云計算、大數(shù)據(jù)、虛擬增強(qiáng)現(xiàn)實(shí)、人工智能等技術(shù)的深入融合,將使萬物實(shí)現(xiàn)互聯(lián),成為各行業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵基礎(chǔ)設(shè)施。而uRLLC(超可靠低時延)作為5G三大應(yīng)用場景之一,也使...
摘要:往年回顧氪研究院長期追蹤一級市場行業(yè)動態(tài),深入調(diào)研各領(lǐng)域細(xì)分賽道最具代表性的企業(yè),從行業(yè)發(fā)展環(huán)境成長性競爭格局未來趨勢等角度進(jìn)行分析與研究,輸出了包含人工智能金融教育醫(yī)療交通文娛電商泛科技在內(nèi)的上百份報告。 showImg(http://upload-images.jianshu.io/upload_images/13825820-d8888a77e920c16f.jpg?imageM...
摘要:大殺器之性能剖析原文地址大殺器之性能剖析前言寫了幾噸代碼,實(shí)現(xiàn)了幾百個接口。功能測試也通過了,終于成功的部署上線了結(jié)果,性能不佳,什么鬼 Golang 大殺器之性能剖析 PProf 原文地址:Golang 大殺器之性能剖析 PProf 前言 寫了幾噸代碼,實(shí)現(xiàn)了幾百個接口。功能測試也通過了,終于成功的部署上線了 結(jié)果,性能不佳,什么鬼?
閱讀 5591·2025-01-02 11:25
閱讀 507·2024-12-10 11:51
閱讀 475·2024-11-07 17:59
閱讀 389·2024-09-27 16:59
閱讀 543·2024-09-23 10:37
閱讀 629·2024-09-14 16:58
閱讀 393·2024-09-14 16:58
閱讀 611·2024-08-29 18:47