Seed-TTS是什么?
Seed-TTS是由字节跳动开发的一种新型多功能的文本到语音(Text to Speech, TTS)生成模型,它基于自回归Transformer架构,只需要简短的语音片段,即可克隆生成高质量、几乎无法与人类语音区分的语音。Seed-TTS在语音上下文学习方面表现出色,特别是在说话者相似度和自然度方面,可以生成高度自然且富有表现力的语音。此外,Seed-TTS还支持情感、语调和说话风格等多属性的控制,并且能够通过编辑文本来编辑生成的语音,使其适用于多种应用场景,如有声读物、视频配音及多语言翻译等。
Seed-TTS模型架构
Seed-TTS模型主要由语音分词器、自回归语言模型、扩散模型、 语音合成器组成。
1️⃣ 语音分词器 (Speech Tokenizer)
Seed-TTS语音分词器将语音信号转换为离散的语音 token 序列。降低模型复杂度,提高训练效率。
2️⃣ 自回归模型(Autoregressive Transformer)
Seed-TTS自回归模型根据文本和语音 token 序列生成语音 token 序列。学习文本和语音之间的关系,生成自然流畅的语音。
3️⃣ 扩散模型 (Diffusion Transformer)
Seed-TTS扩散模型根据语音 token 序列生成连续的语音特征表示。学习语音特征之间的关系,生成具有丰富细节的连续语音。
4️⃣ 语音合成器 (Acoustic Vocoder)
Seed-TTS语音合成器可以将语音特征表示转换为语音波形。生成高质量的语音波形。
Seed-TTS功能特点
✴️ 高度自然的语音生成
Seed-TTS能够生成与人类语音几乎无法区分的高质量语音。这种语音在客观和主观评估中表现出色,尤其是在说话者相似度和自然度方面,与真实人类语音相匹配。
✴️ 出色的上下文学习能力
Seed-TTS在语音上下文学习方面表现出色,可以在理解给定文本的上下文基础上,生成与上下文风格和语义相匹配的语音。
✴️ 零样本学习能力
Seed-TTS还具备零样本学习(ICL)的能力,即使没有训练数据,Seed-TTS 也能基于简短的语音片段生成高质量的语音,非常适用于临时场景。
✴️ 精准的情感控制能力
Seed-TTS能够根据文本内容或额外的情感标签,控制生成语音的情感色彩。例如,它能够处理四种基本情感(愤怒、高兴、悲伤和惊讶),并且在这些情感的表达上表现出色。
✴️ 高级的属性控制能力
Seed-TTS通过指令微调(IFT),能够灵活控制生成语音的各个方面,如表达性、语速、风格和情感等,还可以通过编辑文本来编辑生成的语音。
✴️ 多语种支持能力
Seed-TTS支持多种语言的文本输入和翻译转换,能够生成对应语言的语音。同时支持不同语言间的语音转换,并提供相应语言的口型同步,帮助跨语言沟通和交流。
Seed-TTS如何使用
Seed-TTS目前处于论文和技术测试阶段,暂未对外开放使用,Seed-TTS官网提供了一个在线演示地址,感兴趣的同学可以前去查看,可以在线预览和播放试听各类风格的语音效果。
Seed-TTS官网在线演示地址:https://bytedancespeech.github.io/seedtts_tech_report/
- Seed-TTS arXiv论文地址:https://arxiv.org/html/2406.02430
- Seed-TTS 官方Github项目地址:https://github.com/BytedanceSpeech/seed-tts-eval