Skip to content

配音渠道

配音(TTS)是视频翻译的第三步,将翻译后的字幕文本转换为语音音频。pyVideoTrans 支持 30+ 种配音渠道。


开箱即用(免费)

无需复杂配置,非常适合新手。

渠道说明推荐度
Edge-TTS(免费)微软免费接口,声音自然,支持所有语种⭐⭐⭐ 默认推荐
gTTS(免费)Google TTS,基础质量,国内需科学上网⭐⭐

⚠️ Edge-TTS 短时间内大量使用可能触发限流,建议在高级选项中将并发数设为 1,暂停秒数设为 5-10。


本地内置(免费)

首次使用时自动下载模型。

渠道说明GPU 加速支持克隆推荐度模型下载地址
Qwen3-TTS(本地内置)支持中英日韩10+语言⭐⭐⭐ 推荐https://huggingface.co/collections/Qwen/qwen3-tts
F5-TTS(本地内置)中英日法德俄意、西班牙、印地、阿拉伯语⭐⭐⭐https://huggingface.co/rhasspy/piper-voices
MOSS-TTS-Nano(本地内置)20种语言⭐⭐https://huggingface.co/OpenMOSS-Team/MOSS-TTS-Nano-100M
ZipVoice(本地内置)中英语言⭐⭐⭐ 推荐https://modelscope.cn/models/himyworld/videotrans/files
Piper(本地内置)轻量级,支持20种语言⭐⭐https://huggingface.co/rhasspy/piper-voices
ChatterBox(本地内置)22种语言⭐⭐⭐ 推荐https://huggingface.co/ResembleAI/chatterbox
Supertonic3(本地内置)英韩西法配音⭐⭐https://huggingface.co/Supertone/supertonic-3
VITS(本地内置)中英配音⭐⭐https://modelscope.cn/models/himyworld/videotrans/files

专业云服务(需 API Key)

渠道说明推荐度
Azure TTS微软专业级语音服务⭐⭐⭐
OpenAI TTS声音技术领先⭐⭐⭐
字节语音合成2.0中文发音地道⭐⭐⭐
阿里 Qwen-TTS阿里云语音合成⭐⭐⭐
Gemini TTS谷歌 TTS⭐⭐
Elevenlabs.ioAI 音频技术公司⭐⭐⭐
302.AI聚合平台⭐⭐
Minimaxi需充值使用⭐⭐
小米 TTS小米 AI 开放平台⭐⭐
X.AI TTSx.ai 平台⭐⭐

本地自行部署(高阶)

渠道说明支持克隆推荐度
OmniVoice-TTS支持几乎所有语言⭐⭐⭐ 推荐
GPT-SoVITS只需少量音频即可克隆⭐⭐⭐ 推荐
Index-TTS中英克隆⭐⭐⭐ 推荐
Confucius-TTS14种语言⭐⭐⭐
VoxCPM-TTS10+种语言⭐⭐⭐
CosyVoice中英日韩等10+种⭐⭐
ChatTTS支持中文和英文⭐⭐
Fish-TTS支持内置所有语言
Kokoro-TTS中英韩意葡德法印地
Spark-TTS中英⭐⭐
clone-voice已不维护

使用参考音频

参考音频统一在菜单 → TTS设置 → 设置参考音频中处理。

操作步骤

  1. 打开「参考音频」设置界面
  2. 在「参考音频」文本框中填写以下格式的内容:
音频文件名#该音频文件中对应的文字
  1. 将参考音频文件放置在 pyVideoTrans 项目根目录下的 f5-tts 文件夹内(如该文件夹不存在请手动创建)

示例

假设你有一个音频文件 nverguo.wav,音频内容是「女儿国王说话」,则填写:

nverguo.wav#女儿国王说话

参考音频放到pyVideotrans软件内的f5-tts文件夹内,别搞错

参考音频和参考音频内文字

参考音频要求

项目要求
格式WAV 格式(推荐),MP3 等格式也可
时长3~10 秒
内容发音清晰,无背景噪音
文字必须与音频内容一致