pyVideoTrans视频翻译软件:是一款将视频从一种语言翻译到另一种语言发音和字幕的开源软件。
主要用途
- 视频翻译:它能够识别原视频中的说话声,并自动生成字幕,然后翻译为目标语言字幕,接着为目标语言字幕配音生成音频,再将配音音频、目标语言字幕同原始视频合并,生成新的视频,从而实现视频翻译。
- 语音识别转录:支持批量将音频或视频文件转录为SRT字幕
- SRT字幕翻译:可将SRT字幕保持原格式和时间戳的前提下翻译为其他语言
- 为字幕或文字配音:为SRT字幕或文字生成配音,支持多种配音渠道
此外还有 音频视频字幕合并、批量视频音频合并、批量视频字幕合并、人声背景音分离等辅助功能.
软件工作原理
本软件通过识别视频中的说话声音来进行翻译和处理,与视频中原有的字幕无关。只要视频里有人类说话的声音,就可以进行处理,无论视频是否包含字幕。
需要注意的是:
- 如果视频中只有字幕而没有说话声音,无法进行视频翻译或语音识别。
- 本软件不能直接提取或识别视频中已有的硬字幕。
下载安装软件
下载解压方式仅适用于Windows系统,Mac和Linux请使用源码安装
1. 下载压缩包
- 打开软件官网: https://pyvideotrans.com
- 点击下载按钮, 进入下载页面 https://pyvideotrans.com/downpackage
- 选择百度网盘下载地址,下载完整安装包和最新的补丁包。
首次使用,必须下载完整安装包。下载补丁包后,将其解压并覆盖到完整安装包解压后的目录中。
2. 解压压缩包
下载解压方式仅适用于Windows系统,Mac和Linux请源码安装
下载的完整包和补丁包都是 7z 压缩包格式。可以使用 7-Zip 或其他解压缩软件进行解压。(推荐使用 360压缩软件,下载地址: https://yasuo.360.cn )
解压注意事项
- 避免权限问题: 不要将软件解压到桌面或 C 盘的
Program Files
等需要管理员权限的文件夹下。 - 避免路径错误: 解压路径中不要包含中文、空格或特殊符号。
- 避免权限问题: 不要将软件解压到桌面或 C 盘的
强烈建议:在 D 盘或 E 盘等非系统盘下创建一个新的英文或数字命名的文件夹,并将软件解压到该文件夹内。例如:
D:/videotrans
。
- 解压后,找到
sp.exe
文件,双击即可启动软件。
3. 启动软件
双击 sp.exe
启动软件。由于软件使用了 PySide6 构建界面并内置了较多的功能模块,启动可能需要一些时间,请耐心等待。
启动成功后,将显示软件主界面:
软件界面介绍
左上角标题栏: 显示软件版本号。
左下角: 点击可打开软件文档站。
菜单栏:
翻译配置: 用于设置翻译渠道用到的一些信息,例如 AI翻译渠道的地址、SK等
TTS设置: 用于设置配音渠道信息,例如 OpenAI TTS信息、F5-TTS接口信息等
语音识别设置: 用于设置各个语音识别方式的配置信息,例如 api地址、密钥等
工具/高级选项:设置软件的各种自定义高级配置、以及其他辅助工具
左侧按钮:
自定义视频翻译
:用于进行视频翻译操作。识别字幕并翻译
: 用于从音频或视频中转录出SRT字幕并将该字幕翻译为其他语言。音视频转字幕
: 用于批量将音频或视频转录为SRT字幕(音视频中需有人类说话)批量翻译srt字幕
: 用于将SRT字幕文件翻译为其他语言,同时保持格式和时间轴不变批量为字幕配音
: 使用文字或SRT字幕生成配音,支持多种配音渠道音视频字幕合并
: 用于将视频文件、音频文件、SRT字幕文件合并为同一个视频,适用于已有单独配音文件、srt字幕文件,想嵌入视频时的场景
视频翻译操作步骤
软件默认打开 自定义视频翻译
模块,右侧是操作区域。
1. 选择需要翻译的原始视频
选择要处理的视频
: 点击按钮,从电脑中选择一个或多个视频文件 (按住 Ctrl 键可多选)。文件夹
: 选中此复选框,可以选择一个文件夹,软件将批量翻译该文件夹下的所有视频文件。清理已生成
: 如果对同一个视频再次进行操作,默认会使用上次生成的缓存数据。如果需要重新生成所有文件,请选中此复选框。保存到..
: 点击按钮,选择翻译后文件的保存位置。默认保存在原始视频所在目录下的_video_out
文件夹中。仅保存视频
: 翻译过程中会生成字幕文件、音频文件等中间文件。如果只需要最终的翻译视频,请选中此复选框。
2. 选择翻译渠道
本软件会先将视频语音转换为字幕,然后再将字幕翻译成目标语言,翻译渠道用来完成字幕翻译工作。
翻译渠道
: 选择字幕翻译渠道。微软翻译
: 免费,无需 VPN,翻译质量一般。 (默认选项)Google
: 翻译质量较好,需要 VPN。OpenAI ChatGPT
: 翻译质量最佳,需要 VPN 和付费账号,建议使用chatgpt-4o
或更新的模型, 可使用兼容OpenAI的其他AI供应商,如 DeepSeek 等。百度翻译/腾讯翻译
: 国内翻译渠道,无需 VPN,翻译质量中等。
发音语言
: 选择原始视频的人类说话语言。目标语言
: 选择需要翻译的目标语言。网络代理
: 如果使用需要 VPN 的翻译渠道 (例如 Google、OpenAI),在此处填写代理 IP 和端口。
3. 选择配音渠道
翻译后的字幕文件将使用所选配音渠道生成音频文件
配音渠道
: 选择配音引擎。EdgeTTS
: 基于微软 Edge 浏览器的声音朗读功能,免费,无需代理。(默认选项)本地渠道
: 需要额外安装和配置,可以在本地离线使用。第三方收费 API
: 通常有免费试用额度。
配音角色
: 选择配音角色 (例如:男声、女声)。 需要先选择目标语言才能选择配音角色。试听配音
: 试听选择的配音角色效果。配音语速/音量/音调
: 调整配音的语速、音量和音调。 语速和音量设置值表示相对于默认值的百分比增减量。例如,语速 15 表示比正常语速快 15% (1.15 倍速);音量 90 表示比正常音量高 90% (1.9 倍音量)。
4. 选择语音识别引擎
这是最重要的一步操作,将视频中的说话识别为文字并生成srt字幕
语音识别
: 选择语音识别引擎,用于将视频语音转换为字幕。 默认选择faster-whisper
,免费且可在本地运行。选择模型
: 如果使用faster-whisper
或openai-whisper
,可以选择不同的模型。模型越大,准确度越高,但运行速度越慢,消耗的资源也越多。 软件默认只包含tiny
和medium
两个模型,其他模型需要单独下载。 推荐使用large-v2
或large-v3-turbo
模型,效果最佳 (需要英伟达显卡和 CUDA/cuDNN 支持)。语音切割模式
: 选择语音切割方式。建议使用默认的整体识别
模式,效果更好。均等分割
模式会将语音分割成时长相等的片段, 仅在使用faster-whisper
/openai-whisper
时可用.中文重新断句
: 选中此选项,将使用阿里云的标点符号模型对中文进行重新断句,提高字幕质量。语音降噪
: 选中此选项,将使用阿里云的语音降噪模型对语音进行降噪处理,提高识别准确率。
5. 设置同步对齐
由于不同语言的语速和长度不同,翻译后的配音时长可能与原始视频不一致。 此部分用于调整字幕、配音和画面之间的同步。
视频延长
: 如果配音时长超过原始视频时长,选中此选项将在视频末尾添加静止画面,使视频时长与配音时长匹配。配音加速
: 如果配音时长超过原始视频时长,选中此选项将加速配音,使其时长与视频时长匹配。(最大加速倍数为 3 倍,可在菜单工具
->高级选项
中修改)视频慢速
: 如果配音时长超过原始视频时长,选中此选项将降低视频播放速度,使其时长与配音时长匹配。(最大慢放倍数为 20 倍,可在菜单工具
->高级选项
中修改)字幕嵌入
: 选择字幕嵌入方式。不嵌入字幕
: 不在视频中嵌入字幕。嵌入硬字幕
: 将字幕永久嵌入到视频中,在任何播放器中都能显示。嵌入软字幕
: 将字幕作为独立文件与视频一起保存,需要播放器支持才能显示。嵌入硬字幕(双)
: 嵌入原始语言和目标语言两种硬字幕。嵌入软字幕(双)
: 嵌入原始语言和目标语言两种软字幕。
中日韩单行字符
: 设置嵌入硬字幕时,中日韩语言每行字幕的最大字符数 (默认 20)。其他语言
: 设置嵌入硬字幕时,其他语言每行字幕的最大字符数 (默认 60)。
6. 处理背景音
保留原始背景音
: 选中此选项,将在翻译后的视频中保留原始背景音乐。注意:此选项会显著增加处理时间和系统资源消耗,并提高字幕生成的准确度。添加额外背景音频
: 点击按钮,选择一个音频文件作为新的背景音乐。循环背景音
: 如果新的背景音乐时长短于视频时长,选中此选项将循环播放背景音乐。背景音量
: 调整背景音乐的音量。 值小于 1 为降低音量,大于 1 为提高音量。
7. 开始执行
CUDA加速
: 如果你有英伟达显卡并安装了 CUDA/cuDNN,选中此选项可以大幅提高翻译速度。
点击 开始执行
按钮,软件将开始翻译视频。
如果只翻译一个视频,软件会在生成字幕和翻译字幕后暂停, (例如修改错别字)。
如果选择了多个视频,翻译过程不会暂停,所有视频的字幕都会在右侧字幕区域显示,可能会显得比较混乱,但这不会影响最终的翻译结果。
8. 查看翻译结果
翻译完成后,点击进度条可以打开结果所在的文件夹。 翻译后的视频文件为 MP4 格式,其他文件是中间生成的素材文件 (例如 SRT 字幕文件、音频文件)。
音频视频转字幕 功能
该功能可批量将音频或视频中的说话声识别并导出为srt字幕文件。
批量翻译SRT字幕 功能
该功能可批量将srt字幕翻译为另一种语言,并保持输出为合法的SRT格式字幕。
字幕输出格式
单语字幕: 翻译结果只有目标语言这一种字幕
目标语言在上(双): 翻译结果包含原始语言和目标语言两种字幕,目标语言在上,原始语言在下
目标语言在下(双): 翻译结果包含原始语言和目标语言两种字幕,目标语言在下,原始语言在上
批量为字幕转语音 功能
该功能可将srt字幕合成配音文件,支持批量操作
其他功能
其他功能见 菜单栏---工具,可根据需要使用
语音识别支持 faster-whisper和openai-whisper本地离线模型 及 OpenAI SpeechToText API GoogleSpeech 阿里中文语音识别模型和豆包模型,并支持自定义语音识别api.
字幕翻译支持 微软翻译|Google翻译|百度翻译|腾讯翻译|ChatGPT|AzureAI|Gemini|DeepL|DeepLX|字节火山|离线翻译OTT|其他兼容OpenAI的AI大模型及本地大模型
语音合成 支持 Microsoft Edge tts Google tts Azure AI TTS Openai TTS Elevenlabs TTS 自定义TTS服务器api GPT-SoVITS clone-voice ChatTTS-ui Fish TTS CosyVoice F5-TTS KokoroTTS
支持的语言:中文简繁、英语、韩语、日语、俄语、法语、德语、意大利语、西班牙语、葡萄牙语、越南语、泰国语、阿拉伯语、土耳其语、匈牙利语、印度语、乌克兰语、哈萨克语、印尼语、马来语、捷克语、波兰语、荷兰语、瑞典语、菲律宾语/其他语言可选自动检测
开源说明
本软件开源,开源地址: https://github.com/jianchang512/pyvideotrans
开源协议 GPL-V3: https://www.gnu.org/licenses/gpl-3.0.txt
软件官网: https://pyvideotrans.com
本软件免费下载、免费使用、无需登录无需注册,开发者也未在任何平台或授权任何人在任何平台销售。
软件内置多种免费开源方案,包括在线和本地,可免费使用。
同时软件也支持某些商业第三方api方案,例如 ChatGPT/腾讯翻译/字节火山,若需使用请自备相应账号和密钥等,需到对应第三方平台开通或购买,费用与本软件无关,软件只提供和第三方api的对接技术实现。