配音渠道： Spark-TTS / Index-TTS / Dia-TTS / VoxCPM / Confucius-TTS

v3.68 起，这些 TTS 服务共享同一个设置界面，只需填写对应 TTS 服务启动后的 WebUI 地址（默认通常是 http://127.0.0.1:7860），然后在主界面「配音渠道」下拉列表中选择对应服务即可。

本文档涵盖 6 个开源 TTS 服务的部署与对接方法。它们都通过 Gradio WebUI 提供 API，配置方式基本一致。

一、各渠道简介

渠道	开发者	支持语言	默认地址	官方项目
Spark-TTS	SparkAudio	中文、英文	`http://127.0.0.1:7860`	https://github.com/SparkAudio/Spark-TTS
Index-TTS	B站开源	中文、英文	`http://127.0.0.1:7860`	https://github.com/index-tts/index-tts
VoxCPM-TTS	面壁智能	30+ 种语言	`http://127.0.0.1:7860`	https://github.com/OpenBMB/VoxCPM
Confucius-TTS	网易有道	14 种语言	`http://127.0.0.1:7860`	https://github.com/netease-youdao/Confucius4-TTS

所有渠道的对接流程相同：启动 WebUI → 在 pyVideoTrans 中填写地址 → 选择渠道 → 配置参考音频 → 使用。

二、前置条件

在使用这些 TTS 服务之前，请确保满足以下条件：

pyVideoTrans 版本：v3.68 或更高版本
硬件要求：建议有 NVIDIA 显卡（GPU 加速），部分服务也支持 CPU 运行（速度较慢）
网络环境：首次启动可能需要从 HuggingFace 下载模型，国内用户可能需要科学上网或配置镜像
Python 环境：如果选择源码部署，需要 Python 3.9+ 和 Git

Index-TTS

什么是 Index-TTS

Index-TTS 是 B站开源的 TTS 服务，支持中文和英文语音克隆，音质效果优秀。

部署方式

Windows 整合包

百度网盘下载：https://pan.baidu.com/s/1dmLdhJgBC7HlfY-hITMVeg?pwd=1234
HuggingFace 下载：https://huggingface.co/mortimerme/repocollect/resolve/main/indextts2-0529.7z?download=true

源码部署

请参照官方项目说明文档：https://github.com/index-tts/index-tts

启动 WebUI

启动后默认地址是 http://127.0.0.1:7860，配置方法与 F5-TTS 完全一致。

注意：仅对接 Index-TTS 官方 WebUI。如果你使用了第三方整合包，请用官方源码中的 webui.py 覆盖三方包的 webui.py，否则可能无法使用。

VoxCPM-TTS

什么是 VoxCPM-TTS

VoxCPM-TTS 是面壁智能开源的 TTS 服务，支持 30 多种语言，包括中文多种方言。

支持的语言

国际语言（30+）：阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语
中文方言：普通话、四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话

部署方式

请源码部署，参照官方项目说明文档：https://github.com/OpenBMB/VoxCPM

启动 WebUI 后默认地址是 http://127.0.0.1:7860，配置方法与 F5-TTS 一致。

Spark-TTS

什么是 Spark-TTS

Spark-TTS 是 SparkAudio 开源的 TTS 服务，支持中文和英文语音克隆。

部署方式

请源码部署，参照官方项目说明文档：https://github.com/SparkAudio/Spark-TTS

启动 WebUI 后默认地址是 http://127.0.0.1:7860，配置方法与 F5-TTS 一致。

Confucius-TTS

什么是 Confucius-TTS

Confucius-TTS 是网易有道开源的 TTS 服务，支持 14 种语言。

支持的语言

中文、英文、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语、越南语

部署方式

Windows 整合包

百度网盘下载：https://pan.baidu.com/s/1rtrlJ5pE7wAm4bbpl72x3A?pwd=1234
HuggingFace 下载：https://huggingface.co/mortimerme/repocollect/resolve/main/confucius4-2026-0624.7z?download=true

整合包可直接双击 启动webui.bat 使用。

源码部署（需额外操作）

官方源码不含有 WebUI 和 API，无法直接对接本软件。源码部署后需额外操作：

下载 webui.py 文件
将 webui.py 放在官方源码目录下
安装 gradio 模块：pip install gradio
启动：python webui.py

启动后默认地址是 http://127.0.0.1:7860，配置方法与 F5-TTS 一致。

九、配置参考音频

参考音频统一在菜单 → TTS设置 → 设置参考音频中处理。

操作步骤

打开「参考音频」设置界面
在「参考音频」文本框中填写以下格式的内容：

音频文件名#该音频文件中对应的文字

将参考音频文件放置在 pyVideoTrans 项目根目录下的 f5-tts 文件夹内（如该文件夹不存在请手动创建）

示例

假设你有一个音频文件 nverguo.wav，音频内容是「女儿国王说话」，则填写：

nverguo.wav#女儿国王说话

参考音频放到pyVideotrans软件内的f5-tts文件夹内，别搞错

参考音频和参考音频内文字

参考音频要求

项目	要求
格式	WAV 格式（推荐），MP3 等格式也可
时长	3~12 秒（F5-TTS 最长 12 秒，超长自动截断）
内容	发音清晰，无背景噪音
文字	必须与音频内容一致

常见错误和注意事项

1. 不能关闭终端窗口

API 使用过程中，可以关闭浏览器中的 WebUI 界面，但不能关闭启动 TTS 服务的终端窗口。

这个界面不可关闭，否则api无法调用

2. 不能动态切换模型

不可以动态切换模型。需要手动修改代码，然后重启 WebUI。

3. HuggingFace 连接超时

如果出现类似以下错误：

requests.exceptions.ConnectTimeout: HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded

这是网络问题，需要配置科学上网环境，确保能访问 huggingface.co。

4. 各渠道 API 端点说明

渠道	Gradio API 端点
Spark-TTS	`/voice_clone`
Index-TTS	`/gen_single`
VoxCPM-TTS	`/generate`
Confucius-TTS	`/_clone_fn`

这些端点由软件内部自动调用，用户无需手动配置。

5. 参考音频时长限制

建议 3~10 秒

6. 版本兼容性

确保 pyVideoTrans 版本 ≥ v3.68
各 TTS 服务需使用官方 WebUI（第三方包可能 API 不兼容）

配音渠道： Spark-TTS / Index-TTS / Dia-TTS / VoxCPM / Confucius-TTS ​

一、各渠道简介 ​

二、前置条件 ​

Index-TTS ​

什么是 Index-TTS ​

部署方式 ​

Windows 整合包 ​

源码部署 ​

启动 WebUI ​

VoxCPM-TTS ​

什么是 VoxCPM-TTS ​

支持的语言 ​

部署方式 ​

Spark-TTS ​

什么是 Spark-TTS ​

部署方式 ​

Confucius-TTS ​

什么是 Confucius-TTS ​

支持的语言 ​

部署方式 ​

Windows 整合包 ​

源码部署（需额外操作） ​

九、配置参考音频 ​

操作步骤 ​

示例 ​

参考音频要求 ​

常见错误和注意事项 ​

1. 不能关闭终端窗口 ​

2. 不能动态切换模型 ​

3. HuggingFace 连接超时 ​

4. 各渠道 API 端点说明 ​

5. 参考音频时长限制 ​

6. 版本兼容性 ​

配音渠道： Spark-TTS / Index-TTS / Dia-TTS / VoxCPM / Confucius-TTS

一、各渠道简介

二、前置条件

Index-TTS

什么是 Index-TTS

部署方式

Windows 整合包

源码部署

启动 WebUI

VoxCPM-TTS

什么是 VoxCPM-TTS

支持的语言

部署方式

Spark-TTS

什么是 Spark-TTS

部署方式

Confucius-TTS

什么是 Confucius-TTS

支持的语言

部署方式

Windows 整合包

源码部署（需额外操作）

九、配置参考音频

操作步骤

示例

参考音频要求

常见错误和注意事项

1. 不能关闭终端窗口

2. 不能动态切换模型

3. HuggingFace 连接超时

4. 各渠道 API 端点说明

5. 参考音频时长限制

6. 版本兼容性