ChatTTS打破人機(jī)對話的壁壘！短視頻、小說配音，營銷推廣場景大殺器！

UCloud小助手發(fā)布于2024-06-05 14:53 / 443人閱讀

過去我們讓AI說話，它給出的總是不咸不淡的機(jī)器合成聲音，毫無波瀾的死板音調(diào)讓人聽得昏昏欲睡。但由于chatTTS的到來，一切都將會變得不一樣。作為一款強(qiáng)大的對話式文本轉(zhuǎn)語音模型，它完美解決了用戶對于生動對話的需求。如此功能不可小覷，可以稱得上在業(yè)界一騎絕塵。對于短視頻內(nèi)容創(chuàng)作，有聲小說配音，數(shù)字營銷推廣以及日常辦公，它都可以成為強(qiáng)有力的助手。此外，該項目還衍生出音色抽卡，長文本推理，角色扮演等功能。

項目簡介

ChatTTS由2noise推出，是專門為對話場景設(shè)計的文本轉(zhuǎn)語音模型，例如LLM助手對話任務(wù)。使用非常簡單，只需輸入文本和信息，就可以生成相應(yīng)的語音文件。它同時支持英文和中文，兩種語言的發(fā)聲效果都非常良好，甚至你可以輸入中英文混搭的語句，它也能切換自如，輕松駕馭。

ChatTTS的訓(xùn)練量也是十分驚人。最大的模型使用了10萬小時以上的中英文數(shù)據(jù)進(jìn)行訓(xùn)練。在HuggingFace中開源的版本為4萬小時訓(xùn)練且未SFT的版本。

ChatTTS非常適合處理通常分配給大型語言模型LLM的對話框任務(wù)。當(dāng)集成到各種應(yīng)用程序和服務(wù)中時，它可以生成對話響應(yīng)，并提供更自然、更流暢的交互體驗(yàn)。

核心功能

1. ChatTTS文本轉(zhuǎn)語音

ChatTTS能夠生成自然流暢的語音，輸入的文本里允許加入笑聲 [laugh] 和停頓 [uv_break] 作為韻律標(biāo)記，可操作性很強(qiáng)。有了這些停頓和語氣詞等副語言現(xiàn)象，它聽起來就像是我們在日常生活中的自然交流。它的發(fā)聲也是不拘一格，比如你提問四川當(dāng)?shù)赜心男┟朗常o出的回答還會帶有一點(diǎn)口音！

（幾個示例https://colab.research.google.com/github/Kedreamix/ChatTTS/blob/main/ChatTTS_infer.ipynb#scrollTo=_xrONBIj9oxo）

如果讓它朗讀/陳述信息，可以聽到音質(zhì)相當(dāng)不錯，聲音清晰飽滿，背景噪音較少，語速適中，聲調(diào)平穩(wěn)，英文發(fā)音頗為地道。。。這簡直是廣播電臺的播音員無疑了！當(dāng)然，也存在發(fā)音詞帶有吞音之類的問題，不過還是瑕不掩瑜。

如果讓它讀故事，那聽起來真是抑揚(yáng)頓挫，它時而提升聲調(diào)突出重點(diǎn)，時而放緩過渡，同時也能處理好斷句。

總的來說，ChatTTS針對對話式任務(wù)進(jìn)行了優(yōu)化，實(shí)現(xiàn)了自然流暢的語音合成，同時支持多說話人。生成效果上，不論是語調(diào)還是語氣的變化，都比較細(xì)膩，非常接近真人的說話方式，不會停留在單一的音調(diào)上顯得生硬。整體上聲音很連貫，不會有別扭的感覺。

2.細(xì)粒度控制--韻律調(diào)整:

該模型能夠預(yù)測和控制細(xì)粒度的韻律特征，包括笑聲、停頓和插入詞等。前面我們有提到過韻律特征：停頓和笑聲，實(shí)際上模型有許許多多種韻律的調(diào)整，不僅限于文本里常見的附加[uv_break]和[laugh]（實(shí)際上笑聲也有三種，[laugh_0]、[laugh_1]、[laugh_2]），還有[music]、[pure]、[oral_0]、[speed_3]、[Stts]、[Ptts]等，標(biāo)記處上下文都會受到程度不一的影響，這樣可以很好地做到控制情緒的表達(dá)而不顯突兀。當(dāng)然，目前運(yùn)用參數(shù)自動地對文本的預(yù)處理還是不夠精細(xì)的，可能還是需要一定的人工處理，不然將會更為理想。

言而總之，這個模型可以精確控制韻律元素包括笑聲，停頓和語調(diào)等韻律元素。

項目實(shí)操

基礎(chǔ)用法

import ChatTTS
from IPython.display import Audio
chat = ChatTTS.Chat()
chat.load_models(compile=False) # Set to True for better performance
texts = ["PUT YOUR TEXT HERE",]
wavs = chat.infer(texts, )
torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)

進(jìn)階用法

說話人生成的主要方法是先從高斯噪聲中采樣，然后得到一個固定長度的說話人向量，最后作為額外的信息，輸入到網(wǎng)絡(luò)。給出的項目音色本來是不能固定的，但我們可以通過固定隨機(jī)種子，將音色固定，解決音色過于隨機(jī)的問題

###################################
# Sample a speaker from Gaussian.
rand_spk = chat.sample_random_speaker()
params_infer_code = {
'spk_emb': rand_spk, # add sampled speaker
'temperature': .3, # using custom temperature
'top_P': 0.7, # top P decode
'top_K': 20, # top K decode
}
###################################
# For sentence level manual control.
# use oral_(0-9), laugh_(0-2), break_(0-7)
# to generate special token in text to synthesize.
params_refine_text = {
'prompt': '[oral_2][laugh_0][break_6]'
}
wav = chat.infer(texts, params_refine_text=params_refine_text, params_infer_code=params_infer_code)
###################################
# For word level manual control.
text = 'What is [uv_break]your favorite english food?[laugh][lbreak]'
wav = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text, params_infer_code=params_infer_code)
torchaudio.save("output2.wav", torch.from_numpy(wavs[0]), 24000)

如有興趣可以點(diǎn)擊以下鏈接了解更多細(xì)節(jié)：

https://github.com/2noise/ChatTTS/blob/main/README_CN.md

https://github.com/ultrasev/ChatTTS/blob/master/README.md

https://colab.research.google.com/github/Kedreamix/ChatTTS/blob/main/ChatTTS_infer.ipynb#scrollTo=_xrONBIj9oxo