pyVideoTrans 官网-开源免费的视频翻译配音软件-pyvideotrans github

v3.64 对软件进行了一些小幅优化，主要集中在 语音识别时的切割 和 减少配音报错 两个方面。

调整语音识别时的字幕时长

语音识别的原理是将整个音频根据静音区间切割成若干小片段，每个片段可能是 1 秒、5 秒、10 秒或 20 秒等长度，然后将这些小片段转录为文字，再组合成字幕形式。

在使用 faster-whisper 模式 或 GeminiAI 作为语音识别渠道时，可能会出现字幕识别结果过长（一大串文字）或过于零碎的情况。此时，可以根据语音的说话特点，自行调整切割参数。主要涉及以下几个参数：

找到 菜单 → 工具/选项 → 高级选项 → faster/openai 语音识别调整 界面，如下图

静音分隔毫秒(注意单位是毫秒)：这是语音切割的依据。只有当某段静音时长达到或超过设定值时，才会在此处进行切割。例如，设为 200 表示静音区间达到或超过 200 毫秒时才会切割。如果语速较快、停顿较短，可将此值调低；反之，语速较慢时可适当调高。
最短语音持续时间/毫秒(注意单位是毫秒)：只有超过此设定时长的片段才会被切割为一条字幕。例如，设为 1000ms 表示切割出的字幕最短不低于 1000 毫秒，避免字幕过于零碎。
最大语音持续时间/秒(注意单位是秒)：与上一项相反，用于限制字幕的最长时长。例如，设为 15 表示如果片段时长达到 15 秒仍未找到合适的切割点，则强制切割。
字幕最大时长持续秒数：此参数在识别完成后用于重新断句，限制字幕长度，与语音识别过程中的切割无关。

edge-tts 降低 403 错误率（同样适用于其他配音渠道）

由于配音需要连接微软的 API，403 错误无法完全避免。但可以通过以下调整减少错误发生：

找到 菜单 → 工具/选项 → 高级选项 → 配音调整 如下图

同时配音字幕数：建议设为 1。减少同时配音的字幕数量，可以降低因请求频率过高导致的错误。这一设置也适用于其他配音渠道。
配音后暂停时间/秒：例如设为 5，表示每完成一条字幕配音后暂停 5 秒再进行下一次配音。建议将此值设为 5 或更高，通过延长请求间隔降低错误率。

这是一款开源免费的视频翻译、语音转录、文字配音、字幕翻译软件开源地址 https://github.com/jianchang512/pyvideotrans 文档站: https://pvt9.com 软件本身无收费无收益，靠兴趣支撑维护，如果对你有用，欢迎捐赠支持：https://pvt9.com/about

调整语音识别时的字幕时长 ​

edge-tts 降低 403 错误率（同样适用于其他配音渠道） ​

调整语音识别时的字幕时长

edge-tts 降低 403 错误率（同样适用于其他配音渠道）