配音渠道
配音(TTS)是视频翻译的第三步,将翻译后的字幕文本转换为语音音频。pyVideoTrans 支持 30+ 种配音渠道。
开箱即用(免费)
无需复杂配置,非常适合新手。
| 渠道 | 说明 | 推荐度 |
|---|---|---|
| Edge-TTS(免费) | 微软免费接口,声音自然,支持所有语种 | ⭐⭐⭐ 默认推荐 |
| gTTS(免费) | Google TTS,基础质量,国内需科学上网 | ⭐⭐ |
⚠️ Edge-TTS 短时间内大量使用可能触发限流,建议在高级选项中将并发数设为 1,暂停秒数设为 5-10。
本地内置(免费)
首次使用时自动下载模型。
| 渠道 | 说明 | GPU 加速 | 支持克隆 | 推荐度 | 模型下载地址 |
|---|---|---|---|---|---|
| Qwen3-TTS(本地内置) | 支持中英日韩10+语言 | ✅ | ✅ | ⭐⭐⭐ 推荐 | https://huggingface.co/collections/Qwen/qwen3-tts |
| F5-TTS(本地内置) | 中英日法德俄意、西班牙、印地、阿拉伯语 | ✅ | ✅ | ⭐⭐⭐ | https://huggingface.co/rhasspy/piper-voices |
| MOSS-TTS-Nano(本地内置) | 20种语言 | ❌ | ✅ | ⭐⭐ | https://huggingface.co/OpenMOSS-Team/MOSS-TTS-Nano-100M |
| ZipVoice(本地内置) | 中英语言 | ✅ | ✅ | ⭐⭐⭐ 推荐 | https://modelscope.cn/models/himyworld/videotrans/files |
| Piper(本地内置) | 轻量级,支持20种语言 | ❌ | ❌ | ⭐⭐ | https://huggingface.co/rhasspy/piper-voices |
| ChatterBox(本地内置) | 22种语言 | ✅ | ✅ | ⭐⭐⭐ 推荐 | https://huggingface.co/ResembleAI/chatterbox |
| Supertonic3(本地内置) | 英韩西法配音 | ❌ | ❌ | ⭐⭐ | https://huggingface.co/Supertone/supertonic-3 |
| VITS(本地内置) | 中英配音 | ❌ | ❌ | ⭐⭐ | https://modelscope.cn/models/himyworld/videotrans/files |
专业云服务(需 API Key)
| 渠道 | 说明 | 推荐度 |
|---|---|---|
| Azure TTS | 微软专业级语音服务 | ⭐⭐⭐ |
| OpenAI TTS | 声音技术领先 | ⭐⭐⭐ |
| 字节语音合成2.0 | 中文发音地道 | ⭐⭐⭐ |
| 阿里 Qwen-TTS | 阿里云语音合成 | ⭐⭐⭐ |
| Gemini TTS | 谷歌 TTS | ⭐⭐ |
| Elevenlabs.io | AI 音频技术公司 | ⭐⭐⭐ |
| 302.AI | 聚合平台 | ⭐⭐ |
| Minimaxi | 需充值使用 | ⭐⭐ |
| 小米 TTS | 小米 AI 开放平台 | ⭐⭐ |
| X.AI TTS | x.ai 平台 | ⭐⭐ |
本地自行部署(高阶)
| 渠道 | 说明 | 支持克隆 | 推荐度 |
|---|---|---|---|
| OmniVoice-TTS | 支持几乎所有语言 | ✅ | ⭐⭐⭐ 推荐 |
| GPT-SoVITS | 只需少量音频即可克隆 | ✅ | ⭐⭐⭐ 推荐 |
| Index-TTS | 中英克隆 | ✅ | ⭐⭐⭐ 推荐 |
| Confucius-TTS | 14种语言 | ✅ | ⭐⭐⭐ |
| VoxCPM-TTS | 10+种语言 | ✅ | ⭐⭐⭐ |
| CosyVoice | 中英日韩等10+种 | ✅ | ⭐⭐ |
| ChatTTS | 支持中文和英文 | — | ⭐⭐ |
| Fish-TTS | 支持内置所有语言 | — | ⭐ |
| Kokoro-TTS | 中英韩意葡德法印地 | — | ⭐ |
| Spark-TTS | 中英 | ✅ | ⭐⭐ |
| clone-voice | 已不维护 | ✅ | ⭐ |
使用参考音频
参考音频统一在菜单 → TTS设置 → 设置参考音频中处理。
操作步骤
- 打开「参考音频」设置界面
- 在「参考音频」文本框中填写以下格式的内容:
音频文件名#该音频文件中对应的文字1
- 将参考音频文件放置在 pyVideoTrans 项目根目录下的
f5-tts文件夹内(如该文件夹不存在请手动创建)
示例
假设你有一个音频文件 nverguo.wav,音频内容是「女儿国王说话」,则填写:
nverguo.wav#女儿国王说话1


参考音频要求
| 项目 | 要求 |
|---|---|
| 格式 | WAV 格式(推荐),MP3 等格式也可 |
| 时长 | 3~10 秒 |
| 内容 | 发音清晰,无背景噪音 |
| 文字 | 必须与音频内容一致 |
