配音渠道: Spark-TTS / Index-TTS / Dia-TTS / VoxCPM / Confucius-TTS
v3.68 起,这些 TTS 服务共享同一个设置界面,只需填写对应 TTS 服务启动后的 WebUI 地址(默认通常是
http://127.0.0.1:7860),然后在主界面「配音渠道」下拉列表中选择对应服务即可。
本文档涵盖 6 个开源 TTS 服务的部署与对接方法。它们都通过 Gradio WebUI 提供 API,配置方式基本一致。
一、各渠道简介
| 渠道 | 开发者 | 支持语言 | 默认地址 | 官方项目 |
|---|---|---|---|---|
| Spark-TTS | SparkAudio | 中文、英文 | http://127.0.0.1:7860 | https://github.com/SparkAudio/Spark-TTS |
| Index-TTS | B站开源 | 中文、英文 | http://127.0.0.1:7860 | https://github.com/index-tts/index-tts |
| VoxCPM-TTS | 面壁智能 | 30+ 种语言 | http://127.0.0.1:7860 | https://github.com/OpenBMB/VoxCPM |
| Confucius-TTS | 网易有道 | 14 种语言 | http://127.0.0.1:7860 | https://github.com/netease-youdao/Confucius4-TTS |
所有渠道的对接流程相同:启动 WebUI → 在 pyVideoTrans 中填写地址 → 选择渠道 → 配置参考音频 → 使用。
二、前置条件
在使用这些 TTS 服务之前,请确保满足以下条件:
- pyVideoTrans 版本:v3.68 或更高版本
- 硬件要求:建议有 NVIDIA 显卡(GPU 加速),部分服务也支持 CPU 运行(速度较慢)
- 网络环境:首次启动可能需要从 HuggingFace 下载模型,国内用户可能需要科学上网或配置镜像
- Python 环境:如果选择源码部署,需要 Python 3.9+ 和 Git
Index-TTS
什么是 Index-TTS
Index-TTS 是 B站开源的 TTS 服务,支持中文和英文语音克隆,音质效果优秀。
部署方式
Windows 整合包
- 百度网盘下载:https://pan.baidu.com/s/1dmLdhJgBC7HlfY-hITMVeg?pwd=1234
- HuggingFace 下载:https://huggingface.co/mortimerme/repocollect/resolve/main/indextts2-0529.7z?download=true
源码部署
请参照官方项目说明文档:https://github.com/index-tts/index-tts
启动 WebUI
启动后默认地址是 http://127.0.0.1:7860,配置方法与 F5-TTS 完全一致。
注意:仅对接 Index-TTS 官方 WebUI。如果你使用了第三方整合包,请用官方源码中的
webui.py覆盖三方包的webui.py,否则可能无法使用。
VoxCPM-TTS
什么是 VoxCPM-TTS
VoxCPM-TTS 是面壁智能开源的 TTS 服务,支持 30 多种语言,包括中文多种方言。
支持的语言
- 国际语言(30+):阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语
- 中文方言:普通话、四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话
部署方式
请源码部署,参照官方项目说明文档:https://github.com/OpenBMB/VoxCPM
启动 WebUI 后默认地址是 http://127.0.0.1:7860,配置方法与 F5-TTS 一致。
Spark-TTS
什么是 Spark-TTS
Spark-TTS 是 SparkAudio 开源的 TTS 服务,支持中文和英文语音克隆。
部署方式
请源码部署,参照官方项目说明文档:https://github.com/SparkAudio/Spark-TTS
启动 WebUI 后默认地址是 http://127.0.0.1:7860,配置方法与 F5-TTS 一致。
Confucius-TTS
什么是 Confucius-TTS
Confucius-TTS 是网易有道开源的 TTS 服务,支持 14 种语言。
支持的语言
中文、英文、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语、越南语
部署方式
Windows 整合包
- 百度网盘下载:https://pan.baidu.com/s/1rtrlJ5pE7wAm4bbpl72x3A?pwd=1234
- HuggingFace 下载:https://huggingface.co/mortimerme/repocollect/resolve/main/confucius4-2026-0624.7z?download=true
整合包可直接双击 启动webui.bat 使用。
源码部署(需额外操作)
官方源码不含有 WebUI 和 API,无法直接对接本软件。源码部署后需额外操作:
- 下载 webui.py 文件
- 将
webui.py放在官方源码目录下 - 安装 gradio 模块:
pip install gradio - 启动:
python webui.py
启动后默认地址是 http://127.0.0.1:7860,配置方法与 F5-TTS 一致。
九、配置参考音频
参考音频统一在菜单 → TTS设置 → 设置参考音频中处理。
操作步骤
- 打开「参考音频」设置界面
- 在「参考音频」文本框中填写以下格式的内容:
音频文件名#该音频文件中对应的文字- 将参考音频文件放置在 pyVideoTrans 项目根目录下的
f5-tts文件夹内(如该文件夹不存在请手动创建)
示例
假设你有一个音频文件 nverguo.wav,音频内容是「女儿国王说话」,则填写:
nverguo.wav#女儿国王说话

参考音频要求
| 项目 | 要求 |
|---|---|
| 格式 | WAV 格式(推荐),MP3 等格式也可 |
| 时长 | 3~12 秒(F5-TTS 最长 12 秒,超长自动截断) |
| 内容 | 发音清晰,无背景噪音 |
| 文字 | 必须与音频内容一致 |
常见错误和注意事项
1. 不能关闭终端窗口
API 使用过程中,可以关闭浏览器中的 WebUI 界面,但不能关闭启动 TTS 服务的终端窗口。

2. 不能动态切换模型
不可以动态切换模型。需要手动修改代码,然后重启 WebUI。
3. HuggingFace 连接超时
如果出现类似以下错误:
requests.exceptions.ConnectTimeout: HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded这是网络问题,需要配置科学上网环境,确保能访问 huggingface.co。
4. 各渠道 API 端点说明
| 渠道 | Gradio API 端点 |
|---|---|
| Spark-TTS | /voice_clone |
| Index-TTS | /gen_single |
| VoxCPM-TTS | /generate |
| Confucius-TTS | /_clone_fn |
这些端点由软件内部自动调用,用户无需手动配置。
5. 参考音频时长限制
建议 3~10 秒
6. 版本兼容性
- 确保 pyVideoTrans 版本 ≥ v3.68
- 各 TTS 服务需使用官方 WebUI(第三方包可能 API 不兼容)
