优化断句效果
语音识别后的字幕断句效果直接影响最终翻译质量。本文介绍如何调整参数以获得最佳断句效果。
一、模型选择
不同语言有不同的最佳模型:
| 语言 | 推荐模型 | 说明 |
|---|---|---|
| 英语 | faster-whisper large-v3 | 英语识别效果最佳 |
| 中文 | Qwen-ASR / FunASR | 中文效果极佳 |
| 日语 | openai-whisper large-v3 | 日语识别效果好 |
| 小语种 | openai-whisper large-v3 | 通用模型,支持数十种语言 |
二、参数调整
语音时长参数
| 参数 | 位置 | 默认值 | 说明 |
|---|---|---|---|
| 最长语音持续(秒) | 高级选项 → 语音识别 | 6 | 超过此时长强制分割 |
| 最短语音持续(毫秒) | 高级选项 → 语音识别 | 3000 | 小于此值尝试合并到相邻字幕 |
| 静音分割持续毫秒 | 高级选项 → 语音识别 | 140 | 只在大于此值的静音处分割 |
调整建议:
- 需要更短的字幕:减小「最长语音持续秒数」(如 3-4 秒)
- 需要更长的字幕:增大「最长语音持续秒数」(如 8-10 秒)
- 合并更多短字幕:增大「最短语音持续毫秒」(如 4000)
VAD 参数
| 参数 | 位置 | 说明 |
|---|---|---|
| 选择VAD | 高级选项 → 语音识别 | silero(默认)或 tenvad |
| 语音阈值 | 高级选项 → 语音识别 | 越小越灵敏,可能误将噪声视为语音 |
其他参数
| 参数 | 位置 | 说明 |
|---|---|---|
| Whisper预分割音频 | 高级选项 → 语音识别 | 使用 clone 角色时建议选中 |
| 合并过短字幕到邻近 | 高级选项 → 语音识别 | 选中后合并短字幕 |
| 二次识别 | 主界面 | 配音后再次识别,生成更精准的时间轴 |
三、降噪与人声分离
如果视频有背景音乐或噪声:
- 点击「设置更多参数」
- 勾选「分离人声背景声」
- 可选:勾选「重新嵌入背景声」将分离的背景声重新加入
💡 分离人声后识别效果会显著提升,尤其是背景音乐较大的视频。
四、单视频交互编辑
使用单视频模式时,可以在每个阶段暂停并手动编辑:
- 语音识别完成后 → 弹出字幕编辑窗口
- 翻译完成后 → 弹出翻译字幕编辑窗口
- 配音完成后 → 弹出配音结果编辑窗口
每个窗口都有倒计时(默认30秒),超时后自动保存并继续。点击「停止倒计时」可暂停。
五、LLM 重新断句
如果识别出的字幕断句不理想,可以使用 LLM 重新断句:
- 在主界面选择「LLM重新断句」
- 在高级选项中配置 LLM 渠道(支持 OpenAI-ChatGPT 或 DeepSeek)
- 设置「LLM重新断句每批字幕行数」(默认20条)
⚠️ 使用 clone 角色时不建议使用 LLM 重新断句,因为会打乱时间轴。
相关文档
- 提高 AI 翻译字幕的质量 — 翻译模式对比与术语表使用
- 更好的使用本地大模型作为翻译渠道 — 本地大模型配置指南
- 修改 AI 翻译提示词 — 自定义翻译提示词
- 视频翻译最佳效果推荐 — 每个阶段的最优配置
- 翻译后出现"空白字幕行"的原因与解决方法
