ChatTTS是什么
ChatTTS是一个开源的专为对话场景设计的文本转语音(Text-to-Speech, TTS)生成模型,它主要用于大型语言模型(LLM)助手的对话任务、对话式语音和视频介绍等应用。ChatTTS模型支持中文和英文两种语言,并且经过了超过10万小时的中英文数据训练,ChatTTS在语音合成中表现出高质量和自然度。
ChatTTS的设计重点在于优化对话式任务,实现自然流畅的语音合成,这使得ChatTTS在生成对话语音时表现出色,能够预测和控制细粒度的韵律特征,如笑声、停顿和插入词,从而提供超越大部分开源TTS模型的韵律表现。此外,ChatTTS还支持多说话人向量,这增加了其在不同对话场景中的适用性。
ChatTTS 功能特性
✴️ 多语言支持
ChatTTS 的一个关键特性是支持多种语言,包括英语和中文。这使其能够为广泛用户群提供服务,并克服语言障碍。
✴️ 大规模数据训练
ChatTTS 使用了大量数据进行训练,大约有1000万小时的中文和英文数据。这样的大规模训练使其声音合成质量高,听起来自然。
✴️ 对话任务兼容性
ChatTTS 很适合处理通常分配给大型语言模型LLMs的对话任务。它可以为对话生成响应,并在集成到各种应用和服务时提供更自然流畅的互动体验。
✴️ 开源计划
ChatTTS项目团队计划开源一个经过训练的基础模型。这将使学术研究人员和社区开发人员能够进一步研究和发展这项技术。
✴️ 控制和安全性
ChatTTS团队致力于提高模型的可控性,添加水印,并将其与LLMs集成。这些努力确保了模型的安全性和可靠性。
✴️ 易用性
ChatTTS 为用户提供了易于使用的体验。它只需要文本信息作为输入,就可以生成相应的语音文件。这样的简单性使其方便有语音合成需求的用户。
ChatTTS 如何使用
一、在线免费使用ChatTTS
ChatTTS提供了一个web网页端在线免费试用版本,访问ChatTTS官网,无需注册登录即可在线免费试用体验。
- ChatTTS官网:https://chattts.com/
ChatTTS在线免费试用目前不限次数,在文本框中输入需要转语音的文字,设置好相应参数点击生成即可,生成的音频文件可以在线试听,支持下载和分享。
- ChatTTS模型-HuggingFace地址:https://huggingface.co/2Noise/ChatTTS
二、开发部署ChatTTS
只需简单几步,即可开始使用ChatTTS。
1、从GitHub下载代码。
ChatTTS模型-Github源码:https://github.com/2noise/ChatTTS
git clone https://github.com/2noise/ChatTTS
2、安装依赖项
在开始之前,请确保已安装所需的软件包。您将需要torch和ChatTTS。如果尚未安装,可以使用pip安装:
pip install torch ChatTTS
3、导入所需库
为您的脚本导入必要的库。您将需要torch、ChatTTS和IPython.display中的Audio。
import torch
import ChatTTS
from IPython.display import Audio
4、初始化ChatTTS
创建ChatTTS类的实例并加载预训练模型。
chat = ChatTTS.Chat()
chat.load_models()
5、准备文本
定义要转换为语音的文本。将替换为您想要的文本。
texts = [“你好,欢迎使用ChatTTS!“]
6、生成语音
使用infer方法从文本生成语音。设置use_decoder=True以启用解码器。
wavs = chat.infer(texts, use_decoder=True)
7、播放音频
使用IPython.display中的Audio类播放生成的音频。将采样率设置为24,000 Hz并启用自动播放。
Audio(wavs[0], rate=24_000, autoplay=True)
8、完成脚本
这是供参考的完整脚本:
import torch
import ChatTTS
from IPython.display import Audio# 初始化ChatTTS
chat = ChatTTS.Chat()
chat.load_models()# 定义要转换为语音的文本
texts = [“你好,欢迎使用ChatTTS!“]# 生成语音
wavs = chat.infer(texts, use_decoder=True)# 播放生成的音频
Audio(wavs[0], rate=24_000, autoplay=True)