Skip to content

批量为字幕配音 / 语音合成

支持配音的字幕或文本格式:srt / txt

如果你有很多字幕文件或 txt 文件,想批量为他们创建配音,那么可选择该功能。

将您的 SRT 文件或纯文本,通过选择的 TTS 引擎,批量合成为配音文件(如 WAV 或 MP3)。支持精细调整语速、音量和音调。

tts


界面操作说明

  • 顶部大按钮:可拖拽或点击导入一个或多个 srt/txt 文件
  • 底部大文本框:可直接手动输入文本进行配音。如果你想为一大段文本配音,可复制粘贴到此;如果是为 srt 配音,请使用上方大按钮导入
  • 字幕语言:即你的字幕语言,此选项决定可用使用哪些角色
  • 配音渠道:默认 EdgeTTS(微软免费配音,支持所有语言)。其他渠道有付费在线 API、也有免费需本地部署的开源项目,根据需要选择。某些渠道需要在「菜单 → TTS 设置」中填写密钥 SK。全部配音渠道说明点击查看
  • 选择角色:选择字幕语言和配音渠道后,可在此选择想使用的某个角色
  • 试听配音:选择音色后,会显示试听配音按钮,点击可试听
  • 速度变化百分比:默认 0,大于 0 代表在原本语速基础上加快百分比,例如 10 代表加快 10%,-10 即代表语速减慢 10%
  • 自动加速:不同语言、不同角色说话语速快慢不同,自然无法保证配音时长恰好等于原字幕时长,选中该复选框,若配音时长大于字幕时长,将强制加速缩短配音时长到字幕区间内
  • 删字幕间静音:两条字幕之间通常有空隙,若选中,则删除空隙,声音直接相连,仅当未选择「自动加速」时有效
  • 音量+:逻辑同「速度变化百分比」类似,大于 0 则音量增加该百分比,小于 0 则降低
  • 音调+:默认 0,范围为 -5050,音调从沉闷到尖锐变化
  • 输出格式:默认输出 wav 音频,可选 mp3、m4a
  • 保存到原位置:若选中,将把生成的配音音频保存到原始 srt 字幕文件所在位置
  • 打开输出目录:点击打开生成的配音音频所在文件夹

可用的 TTS 渠道

pyVideoTrans 内置了多种 TTS 渠道,以下是常用的几类:

类型渠道特点
免费Edge-TTS微软免费接口,支持所有语言,效果自然
本地内置Qwen3-TTS阿里开源模型,支持中英日韩等
本地内置ChatterBox支持 20+ 种语言,效果优秀
本地内置MOSS-TTS-Nano支持多语言
本地内置Piper轻量级本地 TTS
本地部署GPT-SoVITS支持声音克隆
本地部署F5-TTS支持声音克隆
在线 APIOpenAI TTS需要 API 密钥
在线 APIAzure TTS需要 Azure 账号

更多渠道请查看 配音渠道一览


常见问题

Q: 配音后的音频时长和字幕不匹配怎么办?

选中「自动加速」选项,软件会自动将过长的配音加速到匹配字幕时长。

Q: 如何使用声音克隆?

在配音渠道中选择支持克隆的渠道(如 F5-TTS、GPT-SoVITS 等),并在角色列表中选择 clone。详情请参考 原声克隆与多角色配音

Q: 配音结果有杂音或机械感?

尝试降低语速百分比,或更换发音角色。如果使用了声音克隆,请确保参考音频质量良好(5-10 秒,清晰无噪音)。