Skip to content

视频翻译最佳效果推荐

本文按处理流程的四个阶段,分别推荐最佳配置方案。


第一步:语音识别

目标:将视频中的语音转换为对应语言的字幕文件。

💡 提示:如果原始音视频有背景音或噪声,建议在主界面点击 设置更多参数 并选中 分离人声背景声,处理后排除噪声干扰,识别效果会更准确。

非中文视频

配置级别渠道模型说明
免费推荐faster-whisper(本地内置)large-v3速度与质量兼顾
免费备选openai-whisper(本地内置)large-v3准确度略高
收费推荐OpenAI 语音识别 API效果优秀

中文视频

配置级别渠道模型说明
免费推荐Qwen-ASR(本地内置)中文效果佳
免费备选阿里 FunASR(本地内置)paraformer-zh中文效果佳
免费备选Firered中文(本地内置)小红书中文及方言中文效果佳
收费推荐豆包语音识别大模型极速版中文效果佳
收费备选阿里百炼 ASR中文优化

日语视频

配置级别渠道模型说明
免费推荐openai-whisper(本地内置)large-v3通用效果好
免费推荐parakeet日语(本地内置)英伟达开源日语模型效果好
免费备选Huggingface_ASRjapanese-wav2vec2-large日语专用
收费推荐OpenAI 语音识别 API效果优秀

小语种视频

配置级别渠道说明
免费推荐openai-whisper(本地内置) large-v3通用模型,支持数十种语言
免费推荐Dophin(本地内置)专门用于亚洲语言(批量语音转录界面可选择自动检测)
免费推荐Omnilingual ASR(本地内置)1600多种语言(批量语音转录界面可选择自动检测)
收费推荐Gemini 大模型识别 / OpenAI API小语种效果好

注意:使用本地模型时,如果没有 N 卡或未启用 CUDA 加速,处理速度会很慢。显存不够大时可能崩溃。

点击查看语音识别各个渠道使用方法


第二步:字幕翻译

目标:将第一步生成的字幕翻译为目标语言。

配置级别渠道说明
首选DeepSeek / OpenAI ChatGPT / Gemini(最新模型)AI 翻译质量最佳
免费Google 翻译 / Microsoft 翻译传统翻译,速度快
本地M2M100完全离线翻译

关键设置

  • 勾选「发送完整字幕」— 让 AI 看到完整上下文,翻译更自然
  • 使用 AI 渠道时,将「AI翻译渠道每批字幕行数」设为 100 或更大,配合支持超长上下文的模型

第三步:配音

目标:根据翻译后的字幕生成配音音频。

配置级别渠道说明
免费推荐Edge-TTS微软免费接口,效果自然,支持所有语种
本地推荐Qwen-TTS(内置可克隆) / F5-TTS(内置可克隆)/ ZipVoice(内置可克隆) / Index-TTS(自行部署API) / GPT-SOVITS(自行部署API) / CosyVoice(自行部署API)中英日韩,效果好
收费推荐豆包语音合成2.0 / Qwen-TTS(bailian) / 302.AI / Minimaxi / OpenAI-TTS高质量商业 API
克隆语音OmniVoice / Qwen-TTS / GPT-SOVITS / CosyVoice / F5-TTS / Index-TTS / ChatterBox / ZipVoice使用原视频音色

点击查看配音渠道详细信息和使用方法


第四步:字幕、配音、画面同步对齐

目标:将字幕、配音和画面进行同步处理。

配置说明
选中「二次识别」在配音完成后对配音文件再次语音识别,生成时间轴精准的字幕
设置「配音语速」中文翻译成英文时,设置 +10+15 加快配音速度
选中「配音加速」当配音比原视频长时,自动加速配音
同时选中「视频慢速」配合音频加速,效果最佳
选中「分离人声背景声」嵌入原始背景音
选中「降噪」提升原音质量,提高识别精度

第五步:其他质量提升

基础设置

  1. 选中「发送完整字幕」
  2. 选中「菜单-工具-高级选项-AI翻译附带完整原字幕」
  3. 将「AI翻译渠道每批次字幕行数」设为 100 或更大
  4. 必须使用支持超长上下文的在线 AI 大模型

使用 clone 角色克隆原音色时

  1. 禁止使用 LLM 重新断句 — 重新划分时间轴会导致参考音频截取错位
  2. 设置 菜单 -> 工具 -> 高级选项 -> 语音识别参数
    • 最短语音持续毫秒:3000
    • 最长语音持续秒数:10
    • 勾选 Whisper预分割音频
    • 勾选 合并过短字幕到相邻
  3. 如果字幕很多都小于3s,建议使用 OmniVoice-TTS 渠道
  4. 翻译渠道使用 AI 引擎(DeepSeek / OpenAI ChatGPT),选中 发送完整字幕
  5. 语音识别:中文建议 豆包语音大模型极速版/Qwen-ASR/FunASR/Firered中文;英文建议 Faster-whisper + large-v3,选中 默认断句
  6. 需要重新嵌入背景音时,点击「设置更多参数」选中「分离人声背景声」;不需要时选中「降噪」

常见问题

Q: 无损视频输出的条件?

原始视频编码为 H.264 MP4 + 不勾选视频慢速 + 不嵌入硬字幕 + 编码选择 264。

Q: 处理速度很慢?

  1. 确保已启用 GPU 加速(CUDA)
  2. 使用较小的模型
  3. 确保显卡驱动已更新

Q: 如何使用 GPU 加速?

确保已安装 NVIDIA 显卡驱动、CUDA 12.8 和 cuDNN 9.11,然后在主界面勾选「CUDA 加速」。AMD 显卡不支持 CUDA 加速。


相关文档