Skip to content

优化断句效果

语音识别后的字幕断句效果直接影响最终翻译质量。本文介绍如何调整参数以获得最佳断句效果。


一、模型选择

不同语言有不同的最佳模型:

语言推荐模型说明
英语faster-whisper large-v3英语识别效果最佳
中文Qwen-ASR / FunASR中文效果极佳
日语openai-whisper large-v3日语识别效果好
小语种openai-whisper large-v3通用模型,支持数十种语言

二、参数调整

语音时长参数

参数位置默认值说明
最长语音持续(秒)高级选项 → 语音识别6超过此时长强制分割
最短语音持续(毫秒)高级选项 → 语音识别3000小于此值尝试合并到相邻字幕
静音分割持续毫秒高级选项 → 语音识别140只在大于此值的静音处分割

调整建议

  • 需要更短的字幕:减小「最长语音持续秒数」(如 3-4 秒)
  • 需要更长的字幕:增大「最长语音持续秒数」(如 8-10 秒)
  • 合并更多短字幕:增大「最短语音持续毫秒」(如 4000)

VAD 参数

参数位置说明
选择VAD高级选项 → 语音识别silero(默认)或 tenvad
语音阈值高级选项 → 语音识别越小越灵敏,可能误将噪声视为语音

其他参数

参数位置说明
Whisper预分割音频高级选项 → 语音识别使用 clone 角色时建议选中
合并过短字幕到邻近高级选项 → 语音识别选中后合并短字幕
二次识别主界面配音后再次识别,生成更精准的时间轴

三、降噪与人声分离

如果视频有背景音乐或噪声:

  1. 点击「设置更多参数」
  2. 勾选「分离人声背景声」
  3. 可选:勾选「重新嵌入背景声」将分离的背景声重新加入

💡 分离人声后识别效果会显著提升,尤其是背景音乐较大的视频。


四、单视频交互编辑

使用单视频模式时,可以在每个阶段暂停并手动编辑:

  1. 语音识别完成后 → 弹出字幕编辑窗口
  2. 翻译完成后 → 弹出翻译字幕编辑窗口
  3. 配音完成后 → 弹出配音结果编辑窗口

每个窗口都有倒计时(默认30秒),超时后自动保存并继续。点击「停止倒计时」可暂停。


五、LLM 重新断句

如果识别出的字幕断句不理想,可以使用 LLM 重新断句:

  1. 在主界面选择「LLM重新断句」
  2. 在高级选项中配置 LLM 渠道(支持 OpenAI-ChatGPT 或 DeepSeek)
  3. 设置「LLM重新断句每批字幕行数」(默认20条)

⚠️ 使用 clone 角色时不建议使用 LLM 重新断句,因为会打乱时间轴。


相关文档