v3.64 对软件进行了一些小幅优化,主要集中在 语音识别时的切割 和 减少配音报错 两个方面。
调整语音识别时的字幕时长
语音识别的原理是将整个音频根据静音区间切割成若干小片段,每个片段可能是 1 秒、5 秒、10 秒或 20 秒等长度,然后将这些小片段转录为文字,再组合成字幕形式。
在使用 faster-whisper 模式 或 GeminiAI 作为语音识别渠道时,可能会出现字幕识别结果过长(一大串文字)或过于零碎的情况。此时,可以根据语音的说话特点,自行调整切割参数。主要涉及以下几 个参数:
找到 菜单 → 工具/选项 → 高级选项 → faster/openai 语音识别调整
界面,如下图
- 静音分隔毫秒(注意单位是毫秒):这是语音切割的依据。只有当某段静音时长达到或超过设定值时,才会在此处进行切割。例如,设为 200 表示静音区间达到或超过 200 毫秒时才会切割。如果语速较快、停顿较短,可将此值调低;反之,语速较慢时可适当调高。
- 最短语音持续时间/毫秒(注意单位是毫秒):只有超过此设定时长的片段才会被切割为一条字幕。例如,设为 1000ms 表示切割出的字幕最短不低于 1000 毫秒,避免字幕过于零碎。
- 最大语音持续时间/秒(注意单位是秒):与上一项相反,用于限制字幕的最长时长。例如,设为 15 表示如果片段时长达到 15 秒仍未找到合适的切割点,则强制切割。
- 字幕最大时长持续秒数:此参数在识别完成后用于重新断句,限制字幕长度,与语音识别过程中的切割无关。
edge-tts 降低 403 错误率(同样适用于其他配音渠道)
由于配音需要连接微软的 API,403 错误无法完全避免。但可以通过以下调整减少错误发生:
找到 菜单 → 工具/选项 → 高级选项 → 配音调整
如下图
- 同时配音字幕数:建议设为 1。减少同时配音的字幕数量,可以降低因请求频率过高导致的错误。这一设置也适用于其他配音渠道。
- 配音后暂停时间/秒:例如设为 5,表示每完成一条字幕配音后暂停 5 秒再进行下一次配音。建议将此值设为 5 或更高,通过延长请求间隔降低错误率。
这是一款开源免费的视频翻译、语音转录、文字配音、字幕翻译软件 开源地址
https://github.com/jianchang512/pyvideotrans
文档站:https://pvt9.com
软件本身无收费无收益,靠兴趣支撑维护,如果对你有用,欢迎捐赠支持:https://pvt9.com/about