Skip to content

开源免费项目,精力所限文档更新可能滞后,请以实际软件界面为准

这是一款功能强大的开源视频翻译/语音转录/语音合成软件,致力于将视频从一种语言,无缝转换到包含另一种语言配音和字幕的视频。

核心功能一览

  • 全自动视频翻译、音频翻译:智能识别转录音视频中的说话声,生成源语言字幕文件,再翻译为目标语言字幕文件,接着进行配音,最后将新的音频与字幕合成到原视频中,一气呵成(左侧功能面板:翻译视频和音频)。
  • 语音转录/音视频转字幕:批量将视频或音频文件中的人类说话声,精准转录为带时间轴的 SRT 字幕文件(左侧功能面板:批量语音转字幕)。
  • 语音合成/文字转语音 (TTS):利用多种先进的 TTS 渠道,为您的文本或 SRT 字幕文件生成高质量、自然流畅的配音(左侧功能面板:批量为字幕配音)。
  • SRT 字幕文件翻译:支持批量翻译 SRT 字幕文件,保留原有时间码和格式,并提供多种双语字幕样式(左侧功能面板:批量翻译srt字幕)。
  • 文稿对齐与打轴:根据音视频及已有的文字稿,将文字稿转为时间轴精准的srt字幕
  • 实时语音转文字:支持实时监听麦克风,并将说话声转为文字

软件工作原理

在开始之前,请务必理解本软件的核心工作方式

软件先提取音频或视频中的人类说话声,通过【语音识别渠道】转写为SRT字幕文件,然后使用【翻译渠道】将该字幕翻译为指定目标语言的字幕,接着继续将该字幕使用所选的【配音渠道】进行配音,最后将字幕、配音、原视频画面三者嵌入并对齐,完成视频翻译流程。

完整的视频翻译要依次经历4个阶段:【语音转录】-> 【字幕翻译】-> 【字幕配音】->【音画字幕对齐与合成】

  • 【语音转录】:该阶段将视频中的说话声音转录为字幕文本,具体功能由【语音识别渠道】实现
  • 【字幕翻译】:该阶段将上一步转录出的字幕文本,翻译为目标语言的字幕文本,由【翻译渠道】实现
  • 【字幕配音】:该阶段将上一步翻译后的字幕文本配音为音频文件,由【配音渠道】实现
  • 可以处理:任何包含人类语音的音视频,无论它有没有内嵌字幕。
  • 无法处理:只有背景音乐和硬字幕,但没有任何人说话的视频。本软件也无法直接提取视频画面中的硬字幕。 无法抹除视频中原有的硬字幕

如果你需要提取视频里的硬字幕,可以尝试使用另外一个工具 本地离线提取视频硬字幕

下载与安装

1.0 MacOS / Linux 用户 (必须源码部署)

MacOS 和 Linux 用户,请通过源码方式进行部署。

1.1 Windows 用户 (exe预打包版)

Windows 10/11 用户可下载开箱即用的预打包版本,无需繁琐配置,解压即用(当然Win上也可以源码部署但可能会遇到一些环境问题)。

点击去下载windows预打包版,解压即用(第一次使用请务必下载 2.6G 的完整包)

请不要直接在压缩包中双击 sp.exe 使用,这样必然会报错,请先完整解压后再双击

解压路径示例

使用前请注意,能避免大多数错误

  1. 不要解压到 C:/Program FilesC:/Windows 等需要特殊权限的系统文件夹,因软件生成的文件和临时文件均需要写入解压路径中。
  2. 推荐将软件解压到仅包含英文和数字的文件夹中,例如 D:/videotrans,然后将压缩包解压到此文件夹内。强烈不建议包含任何中文、空格或特殊符号,存放路径也不可太深。
  3. 待翻译的视频请保持简短的文件名,例如30个字符内长度较好,而上百个字符则太长,叠加路径和其他命令后,在Windows下可能超过系统限制而报错。

文件名中也不要包含":?*等特殊符号,否则Win上同样可能报错,尤其从油管下载的视频,文件名通常超级长,还包括各种特殊符号,若不经修改直接使用,大概率在win系统上会遇到各种错误,建议修改为简短的名称并去除各种特殊符号。 4. Windows下请开启显示扩展名(默认是隐藏的),能避免一些错误,尤其涉及参考音频填写时。

打开任意一个文件夹,点击导航栏--查看--文件扩展名,选中它,选中后mp4视频将会在名称后显示扩展名.mp4,wav音频会显示扩展名.wav

启动软件

解压完成后,进入文件夹,找到 sp.exe 文件,双击运行即可。

软件首次启动时需要加载较多模块,可能需要几十秒甚至2-3分钟,请耐心等待。

软件界面

软件启动后,您会看到如下主界面,点击设置更多参数将显示更多配置,例如保留背景声音、降噪等

点击查看各个功能截图预览
  • 左侧功能区
  • 翻译视频和音:智能识别转录音视频中的说话声,生成源语言字幕文件,再翻译为目标语言字幕文件,接着进行配音,最后将新的音频与字幕合成到原视频中,一气呵成()。
  • 批量语音转字幕:批量将视频或音频文件中的人类说话声,精准转录为带时间轴的 SRT 字幕文件。
  • 批量为字幕配音:利用多种先进的 TTS 渠道,为您的文本或 SRT 字幕文件生成高质量、自然流畅的配音。
  • 批量翻译srt字幕:支持批量翻译 SRT 字幕文件,保留原有时间码和格式,并提供多种双语字幕样式。
  • 音视频字幕合并:将音频、视频、字幕三者合并为一个视频文件

  • 顶部菜单栏:进行全局配置。

  • 翻译设置:配置各个翻译渠道(如OpenAI , Azure, DeepSeek )的API Key和相关参数。

  • TTS设置:配置各配音渠道(如OpenAI TTS, Azure TTS)的API Key和相关参数,以及设置参考音频。

  • 语音识别设置:配置语音识别渠道(如OpenAI API, 阿里ASR)的API Key和参数。

  • 工具/选项:包含各种高级选项和辅助工具,如字幕格式调整、视频合并、人声分离等。

  • 帮助/关于:查看软件版本信息、文档和社区链接。

**免费/本地API/本地内置** 是什么意思
  • 免费: 例如 Google翻译、微软翻译、Edge-TTS配音,这些渠道都是在线免费使用的,无需配置开箱即用,只是需注意有限流错误,高频使用时可能会遇到报错
  • 本地API: 很多开源模型可自行在本地部署,部署并启动后,将API地址或WebUI地址填写在 pyVideoTrans 软件设置界面,软件即可通过该地址调用你部署的模型服务。例如 GPT-SoVITS / CosyVoice / F5-TTS 等
  • 本地内置: 有些模型可以相对方便的集成到 pyVideoTrans 软件内,而无需单独另行部署,开箱可用,例如 VITS/Piper/Qwen3-TTS/Qwen3-ASR/SuperionTTS/ChatterBox等额,但需要注意,为避免软件体积无限膨胀,仅调用代码内置,模型本身并未内置,第一次使用时需在线下载模型。后续使用时可能也会检测模型更新,需保持联网状态,若想纯离线,你需要源码部署本软件并使用AI修改代码。

模型下载地址为 huggingface.co(被墙的国外模型站)/hf-mirror.com(国内镜像站)/modelscope.cn(阿里魔塔)/github.com(微软代码库)

核心功能:翻译视频和音频

打开软件默认显示的就是 翻译视频和音频 工作区,这也是软件最核心的功能。

基本使用流程:选择需要翻译的原始视频 -> 选择要使用的语音识别渠道 -> 选择发音语言和想翻译到的目标语言->选择要使用的翻译渠道渠道 -> 选择配音渠道和配音角色 -> 点击开始执行.

以下将一步步带您完成一个完整的视频音频翻译任务。

第 1 行:选择要翻译的视频

支持的视频格式 mp4/mov/avi/mkv/webm/mpeg/ogg/mts/ts/wmv

支持的音频格式 wav/mp3/m4a/flac/aac/wma

  • 选择音频或视频:点击该按钮,选择一个或多个需要翻译的视频或音频文件(按住 Ctrl 可多选)。

  • 文件夹:勾选此项可批量处理整个文件夹内的所有视频。

  • 清理已生成:若需对同一视频重新处理(而不是使用缓存),请勾选此项,否则会使用上次已生成的缓存文件。

  • 输出到..:默认翻译后的文件保存到原视频目录下的 _video_out 文件夹,点击此按钮可单独设置翻译后视频的输出目录。

  • 仅输出mp4:如果选中,则输出中只保留最终的翻译视频,其他字幕、音频等文件都会自动删除。

  • 完成后关机:处理完所有任务后自动关闭计算机,适合大批量、长时间任务。

第 2 行:语音识别渠道

语音识别:用来将音频或视频中的说话声转录为字幕文件,这一步的质量直接决定后续效果,支持十多种不同识别方式。

  • faster-whisper(本地):这是本地模型(第一次运行需在线下载模型),速度和质量都较好,如无特殊需要,可选它。它有十来个不同大小的模型可选,最小最快最节省系统资源的模型是 tiny,但准确度很低,不建议使用,效果最好的是 large-v3, 建议选择他。.en结尾和distil-开头的模型只支持英语发音的视频使用。

  • openai-whisper(本地):和上方模型基本类似,不过速度更慢一些,准确度可能略微高一点,同样建议选择 large-v3 模型。

  • qwen-asr(本地):阿里的本地识别模型,对中文支持效果较好,如果你的原始视频是中文说话,可尝试使用它,同样第一次需在线下载模型

  • **二次识别 **:在选择配音并选择了嵌入单字幕时,可选中二次识别,将在配音完毕后再次对配音文件进行语音转录,生成较为简短的字幕嵌入视频内,确保字幕和配音精确对齐(在高级选项--语音识别区域--而设置二次识别的最长语音持续时间和最短语音持续时间,设置较小的值有利于生成短小字幕)

  • 默认断句和LLM重新断句: LLM重新断句是指在语音识别出字幕文本后,将文本发送给AI大模型,修正错别字、重新切分长文本等,以得到更通顺流畅的结果,需配置DeepSeek或OpenAI ChatGPT具体使用哪个翻译渠道进行LLM重新断句,可在菜单-工具--高级选项-通用-LLM断句模型里选择,但注意使用LLM重新断句后结果也可能更糟糕,因效果取决于AI大模型本身智能,在克隆原音色(即配音角色是clone)时,不建议使用该断句方式,默认即可。

LLM重新断句的提示词在软件目录/videotrans/prompts/recharge/recharge-llm.txt中,可自行修改调整

如果选中了二次识别和LLM重新断句,将在二次识别后,对识别结果再次使用 LLM重新断句,提示词在文件软件目录/videotrans/prompts/recharge/recharge-llm.txt2

点击查看 所有支持的语音识别渠道

第 3 行 翻译渠道

翻译渠道:翻译渠道用来将转录后的原始语言字幕文件,翻译为目标语言字幕文件,内置十几种翻译渠道供选择

  • 免费传统翻译: Google翻译(需代理)、微软翻译(无需代理)、M2M100本地翻译、DeepLX(需自行部署)
  • 收费传统翻译:百度翻译、腾讯翻译、阿里机器翻译、DeepL
  • AI智能翻译:OpenAI ChatGPT、Gemini、DeepSeek、智谱AI、硅基流动、302.AI 等,需自备SK密钥并填写在菜单-翻译设置-对应渠道设置面板内LLM重新断句的提示词在软件目录/videotrans/prompts/srt/和 text文件夹中,可自行修改调整
  • 兼容AI/本地模型:同时支持自行本地部署大模型,只需要选择 兼容AI/本地模型 渠道,并将api地址填写到菜单-翻译设置-本地大模型设置内即可
  • 发音语言:是指原始视频中人物说话的语言,必须正确选择。
  • 目标语言:就是你希望将音视频翻译成的目标语言。
  • 翻译术语表:用于AI翻译时,发送给AI的术语
  • 发送完整字幕:用于AI翻译时,附带行号和时间轴发给AI,在使用AI翻译渠道时,建议选中,如果选中,则使用软件目录/videotrans/prompts/srt中的提示词,否则使用软件目录/videotrans/prompts/text中的提示词

点击查看 所有支持的翻译渠道

第 4 行 配音渠道

配音渠道:翻译后的字幕文件,将使用这里指定的渠道进行配音. 支持在线配音API例如 Qwen-TTS/Edge-TTS/Elevenlabs/Minimaxi等,也支持本地部署的开源TTS模型。 其中Edge-TTS是免费配音渠道,开箱可用。 需要配置的一些渠道,在菜单--TTS设置--对应渠道面板中填写相关信息。

  • 配音角色:每个配音渠道一般都有多个发音人供选择,先选中目标语言后,即可选择配音角色。
  • 试听配音:在选中某个配音角色后,即可点击试听当前角色的声音效果。

配音角色选中clone,代表将使用原始视频对应的音色进行配音

点击查看 所有支持的配音渠道

第 5 行:同步对齐和字幕

视频翻译后出现字幕、语音、画面不同步的根源

当一种语言翻译为其他语言并配音后,因不同语言的音节数不同、语法结构差异,配音时长肯定会发生变化,进而导致字幕、语音、画面不同步,这是正常现象。

针对该问题,可在此通过加速音频或减缓视频来进行一定程度的调整。

主要针对配音后时长 大于 原时长 的情况进行调整,以避免声音重叠,对于配音后时长变短的情况不做处理。

  • 音频加速:如果某个配音片段比原声音片段长时,加速配音以匹配原时长。
  • 视频慢速:同样当某个配音比视频长时,放慢该片段的视频播放速度以匹配配音时长。(若选中,处理会比较耗时,同时生成大量中间片段,出于尽量减小质量损失考虑,整体尺寸会比原视频增大数倍)
  • 不嵌入字幕:只替换声音,不添加任何字幕。
  • 嵌入硬字幕:将字幕永久“烧录”到画面中,无法关闭,在任何地方播放均会显示字幕。
  • 嵌入软字幕:将字幕作为独立轨道封装进视频,播放器可选择开关,网页中播放时无法显示字幕。
  • (双):每条字幕都由两行组成,分别是原始语言字幕和目标语音字幕。
  • 网络代理:对于中国大陆地区,使用 Google、Gemini、OpenAI等国外服务,需要使用代理,如果你有vpn等服务,并且知道代理端口号,可在此填写,形式类似http://127.0.0.1:7860等。

点击查看 视频翻译中的配音、字幕、画面同步对齐 原理

第 6 行:开始执行

  • CUDA加速:在Windows和Linux上,如果您有 NVIDIA 显卡并正确安装了 CUDA 环境,请务必勾选此项,它能将语音识别的速度提升数倍甚至数十倍。

如果你有多张英伟达显卡,可选中菜单--工具--高级选项--通用设置--多卡模式,将会尝试使用多卡并行处理 点击查看 配置CUDA加速环境

一切设置完毕后,点击【开始执行】按钮。

执行中

如果一次选择翻译多个音视频,将同时交叉执行,中间不会暂停。

如果想彻底完成一个后再继续下个,可在菜单--工具--高级选项--通用设置--批量翻译视频时每批数量填写为1

一次仅选择一个视频时,在语音转录完成后,将弹出单独的字幕编辑窗口,你可在此对字幕进行修改,以便后续过程更准确,点击查看说明。
  • 第 1 次修改机会:语音识别阶段完成后,弹出字幕修改窗口

在字幕翻译完成后弹出的窗口中,可为每个说话人设置不同的发音角色,还可以为每行字幕单独指定一个发音角色

  • 第 2 次修改机会:字幕翻译阶段完成后,弹出字幕修改和发音角色修改窗口

  • 第 3 次修改机会:配音完成后,可再次检查或重新对每条字幕进行配音

  • 第 4 次修改机会:如果选择了二次识别并且有配音,将在二次识别后,再次弹出字幕修改窗口,可在此修复错别字等

第 7 行:进度条

任务完成后,点击底部进度条区域即可打开输出文件夹。您会看到最终的 MP4 文件以及过程中生成的 SRT 字幕、配音文件等素材。如果选中了仅输出mp4,则只会看到翻译后的视频文件

第 8 行:设置更多参数

如果你还想进行更精细的控制,例如语速、音量、每行字幕字符数、降噪、说话人识别等,可以点击 设置更多参数...,点击后如图

  • 识别说话人:若选中,将在语音识别结束后,尝试识别区分说话人(准确度有限),后边的数字代表预先设定想识别出几个说话人,若提前确定,将增加准确度,默认不限制。在高级选项中可切换说话人模型(内置、阿里cam++、payanote等)

  • 配音语速:默认0,若填写50则代表语速加快 50%,-50代表降速 50%

  • 音量+:同样默认0,填写50代表音量增大 50%,-50代表降低50%

  • 音调+:默认0,20代表音调调高 20Hz变得尖锐,反正-20降低20Hz变得低沉

  • 修改硬字幕样式:点击将弹出专门的硬字幕样式编辑器

  • 分离人声背景声:选中将把视频中的背景伴奏声和说话声分离出来,(此步为纯 CPU 操作较为缓慢)

  • 嵌入背景:将分离出来的背景声在最终完成配音合并时,再将嵌入进去

  • 循环背景音:如果背景音频时长小于最终的视频时长,选中将循环播放背景音,否则以静音填充

  • 背景音量:重新嵌入后新的背景音量设置,默认0.8,即音量降低为原来的 0.8 倍

  • 额外添加背景音频:你也可以选择本地某个音频,作为新的背景伴奏

  • 降噪:将尝试清除音频中的背景噪声、音乐等,如果同时选中了分离人声和背景声,则仅对分离出的人声进行降噪处理

  • 恢复标点/删除标点:恢复标点:如果选择后,将在识别后尝试添加标点符号. 删除标点: 选择后将删除字幕中所有标点符号

点击查看 菜单-工具-高级选项 各个参数使用说明

无损视频输出

视频处理中只要涉及重新编码,就必然损失画质,默认生成的视频是有损的,质量可通过 高级选项--视频输出--视频输出质量、控制输出视频压缩率进行适当调节。

当符合以下条件时,将自动进行无损输出

  • 原始输入视频编码是 mp4/h.264/yuv420p(若不符合,则自动重新编码)
  • 高级选项中264/265编码选择的是264(若选265将重新编码)
  • 未启用视频慢速(若启用则变速处理必然重新编码损失画质)
  • 未嵌入硬字幕硬字幕(双)(硬字幕需重新编码)

符合以上条件,将不进行任何视频重编码操作,因此可以无损输出。 但注意可能出现的问题,若配音后时长大于视频原时长,配音超出部分将强制截断,丢失末尾一些声音,要避免,请选中 音频加速 或 增大语速

菜单--工具/选项--高级选项

【通用设置】

  • 软件界面语言: 设置软件界面语言,修改后需要重启软件

  • 单视频交互翻译暂停倒计时: 当单视频交互翻译时,暂停倒计时秒数(设为0将跳过编辑窗口)

  • 独立功能输出目录: 用于设置 批量语音转录 / 批量为字幕配音 / 批量翻译srt字幕 等功能的输出结果位置,非视频翻译结果保存位置,默认软件安装目录下output文件夹

  • 失败后重试次数: 失败后重试次数(针对重试可能恢复的错误,在此设定重试次数)

  • LLM重新断句每批字幕行数: LLM大模型重新断句时,每次发送多少条字幕,该值越大断句效果越好,一次性发送全部字幕最佳,但受限于最大输出token和上下文(max_token),过长输入可能导致超出AI限制而失败,默认20条字幕

  • LLM重新断句所用AI渠道: LLM重新断句时使用的AI渠道,目前支持 OpenAI-ChatGPT 或 DeepSeek 渠道

  • 禁用桌面通知: 任务完成或失败后不显示桌面通知

  • 批量翻译视频时每批数量: 批量翻译视频时,在此设置每批次同时翻译几个,默认0即不限制

  • 主界面显示所有参数?: 为避免过多参数造成困扰,主界面默认隐藏大部分参数,如果选中这里将切换为默认显示所有参数

  • CPU同时任务数[重启生效]: 最大CPU同时任务数,越大越快但可能爆内存,最大不应超过cpu核数

  • GPU同时任务数[重启生效]: GPU任务同时执行数量,除非多卡或单卡显存大于24G,否则请设为1

  • 多显卡模式[重启生效]: 如果有多张显卡,可启用该项,同时可将上述选项设为2或显卡数

【视频输出控制】

  • 视频输出质量控制: 视频转码时损失控制,0=无损但视频会超级大,51=质量差文件小

  • 输出视频压缩率: 主要调节编码速度和质量的平衡,有 ultrafast、superfast、veryfast、faster、fast、medium、slow、slower、veryslow 选项,编码速度从快到慢、压缩率从低到高、视频尺寸从大到小。

  • 264/265编码: 采用 libx264 编码或 libx265 编码,264兼容性更好,265压缩比更大清晰度更高

  • 输出视频格式(mp4/mkv): 输出视频格式(mp4/mkv)

  • 可变帧率vfr/固定帧率cfr: 有视频慢速处理时,可变帧率vrf效果更好,固定帧率cfr兼容性更佳

  • 强制软编码视频?: 强制ffmpeg使用软编解码?(速度慢但兼容性好不易出错,默认优选硬件编码)

  • 视频合成cuda硬解码: 最后一步视频合成时,强制使用cuda解码视频,更快但易出错

  • 自定义ffmpeg命令参数: 自定义ffmpeg命令参数, 将添加在输出文件之前的位置,例如 -bf 7 -b_ref_mode middle

【语音识别参数】

  • 选择VAD: 选择要使用的VAD

  • 语音阈值: 表示音频片段被认为是语音的最低概率。VAD 会为每个音频片段计算语音概率,超过此阈值的部分被视为语音,反之视为静音或噪音。越小越灵敏但可能误将噪声视为语音

  • 非语音阈值: 减小可降低幻觉但可能遗漏文字

  • 最长语音持续(秒): 最长语音持续时长(秒),限制单个语音片段的最大长度。超过此时长时强制分割。填写数字,单位是秒

  • 最短语音持续(毫秒): 最短语音持续时长(毫秒),如果某条字幕时长小于该ms,则尝试将该字幕合并进相邻字幕中,单位是毫秒

  • 二次识别最长语音持续(秒): 二次识别最长语音持续时长(秒),限制单个语音片段的最大长度。超过此时长时强制分割。填写数字,单位是秒

  • 二次识别最短语音持续(毫秒): 二次识别最短语音持续时长(毫秒),如果某条字幕时长小于该ms,则尝试将该字幕合并进相邻字幕中,单位是毫秒

  • 静音分割持续毫秒: 在语音结束时,需等待的静音时间达到此值后,才会分割出语音片段。填写数字,单位ms,也就是只在大于此值的静音片段处分割

  • 合并过短字幕到邻近: 只有选中该项,才会合并短字幕

  • Whisper预分割音频?: 是否提前将音频切割为句子片段后再发给whisper模型识别?若使用clone配音角色,请选中,并将最短语音设为3000,最大语音设为10,提供语音克隆可靠性

  • 说话人分离模型: 用于说话人分离的模型,默认内置模型支持中英. 若选 pyannote 必须拥有 https://huggingface.co 上的token,并且同意pyannote组织的授权协议,具体请访问URL查看教程:https://pvt9.com/shuohuaren

  • Huggingface的token: 填写你在 huggingface.co 的token,否则无法使用 pyannote,具体查看教程 https://pvt9.com/shuohuaren

  • 计算数据类型: faster模式时计算数据类型,int8=消耗资源少,速度快,精度低,float32=消耗资源多,速度慢,精度高,float16适合GPU加速。default默认自选

  • 识别准确度beam_size: 字幕识别时精度调整,1-5,1=消耗显存最低,5=消耗显存最多

  • 识别准确度best_of: 字幕识别时精度调整,1-5,1=消耗显存最低,5=消耗显存最多

  • 启用上下文感知: 若开启将占用更多GPU,效果也更好,但也容易出现重复或幻觉

  • 重复惩罚: 增大该值有利于减少重复

  • 文本压缩率: 减小该值有利于减少重复

  • 采样温度: 采样温度

  • 热词: 告诉模型哪些词可能出现,以英文逗号分隔多个

  • faster-whisper模型: faster-whipser的模型列表,英文逗号分隔

  • whisper.cpp模型: whisper.cpp的模型名字列表,英文逗号分隔

  • Gemini语音识别每批切片数: 使用gemini识别语音时,每次发送音频切片数,越大效果越好,但失败率会升高

  • 字幕繁体转简体: 强制将识别出的繁体字幕转为简体

  • 删除字幕末尾标点?: 删除字幕末尾标点?

【字幕翻译调整】

  • 传统翻译渠道每批字幕行数: 传统翻译渠道每次发送字幕行数

  • AI翻译渠道每批字幕行数: AI翻译渠道每次发送字幕行数

  • AI翻译一次性翻译所有字幕行: AI翻译渠道一次性翻译字幕所有行,翻译质量最佳 【务必注意】1. 必须使用支持超长上下文的先进模型(在线AI旗舰模型), 2. 需要将对应AI渠道设置界面中的max token设为较大值,否则长篇输出可能被截断而报错 3. 可能反馈较慢,表现为迟迟未返回数据

  • 翻译后暂停秒: 每次翻译后暂停秒数,用于限制请求频率

  • 发送完整字幕: 是否在使用AI翻译渠道时发送完整字幕格式内容

  • AI翻译模型温度值: AI翻译模型温度值,默认1.0

【字幕配音调整】

  • 并发配音线程数: 同时配音的线程数

  • 配音后暂停秒: 每次配音后暂停秒数,用于限制请求频率

  • 移除配音前后静音缓冲: 移除每条字幕配音前后静音缓冲,利于音画同步,但可能结尾仓促

  • 保留每条字幕的配音文件: 保留每行字幕的配音结果

  • 文本规范化: 配音前对文本规范化处理

  • ChatTTS音色值: ChatTTS 音色值

  • EdgeTTS配音渠道配音并发数: EdgeTTS渠道配音并发数,越大越快,但可能限流失败

  • EdgeTTS配音渠道失败重试次数: EdgeTTS渠道失败后重试次数,有些失败无论多少次重试也无法恢复,太大只会延长耗时

  • 人声背景分离线程数: 人声背景声分离线程数,越大越快但占用资源越多

  • 分离背景声模型: 选择分离背景声时所用模型

【字幕声音画面对齐】

  • 音频加速最大倍数: 最大音频加速倍数,默认100

  • 视频慢放最大倍数: 视频慢放最大倍数,默认10,不可大于10

  • 中日韩字幕单行字符数: 中日韩字幕单行字符数,多于将换行,仅针对视频翻译中的目标字幕或单独的语音转录功能字幕

  • 其他语言字幕单行字符数: 其他语言字幕单行字符数,多于将换行,仅针对视频翻译中的目标字幕或单独的语音转录功能字幕

【Whisper模型提示词】

  • whisper模型简体中文提示词: 发音语言为简体中文时发送给whisper模型的提示词

  • whisper模型繁体中文提示词: 发音语言为繁体中文时发送给whisper模型的提示词

  • whisper模型英语提示词: 发音语言为英语时发送给whisper模型的提示词

  • whisper模型法语提示词: 发音语言为法语时发送给whisper模型的提示词

  • whisper模型德语提示词: 发音语言为德语时发送给whisper模型的提示词

  • whisper模型日语提示词: 发音语言为日语时发送给whisper模型的提示词

  • whisper模型韩语提示词: 发音语言为韩语时发送给whisper模型的提示词

  • whisper模型俄语提示词: 发音语言为俄语时发送给whisper模型的提示词

  • whisper模型西班牙语提示词: 发音语言为西班牙语时发送给whisper模型的提示词

  • whisper模型泰国语提示词: 发音语言为泰国语时发送给whisper模型的提示词

  • whisper模型意大利语提示词: 发音语言为意大利语时发送给whisper模型的提示词

  • whisper模型希腊语提示词: 发音语言为希腊语时发送给whisper模型的提示词

  • whisper模型高棉语提示词: 发音语言为高棉语时发送给whisper模型的提示词

  • whisper模型挪威语提示词: 发音语言为挪威语时发送给whisper模型的提示词

  • whisper模型葡萄牙语提示词: 发音语言为葡萄牙语时发送给whisper模型的提示词

  • whisper模型越南语提示词: 发音语言为越南语时发送给whisper模型的提示词

  • whisper模型阿拉伯语提示词: 发音语言为阿拉伯语时发送给whisper模型的提示词

  • whisper模型土耳其语提示词: 发音语言为土耳其语时发送给whisper模型的提示词

  • whisper模型印度语提示词: 发音语言为印度语时发送给whisper模型的提示词

  • whisper模型匈牙利语提示词: 发音语言为匈牙利语时发送给whisper模型的提示词

  • whisper模型乌克兰语提示词: 发音语言为乌克兰语时发送给whisper模型的提示词

  • whisper模型印尼语提示词: 发音语言为印尼语时发送给whisper模型的提示词

  • whisper模型马来语提示词: 发音语言为马来西亚语时发送给whisper模型的提示词

  • whisper模型哈萨克语提示词: 发音语言为哈萨克语时发送给whisper模型的提示词

  • whisper模型捷克语提示词: 发音语言为捷克语时发送给whisper模型的提示词

  • whisper模型波兰语提示词: 发音语言为波兰语时发送给whisper模型的提示词

  • whisper模型荷兰语提示词: 发音语言为荷兰语时发送给whisper模型的提示词

  • whisper模型瑞典语提示词: 发音语言为瑞典语时发送给whisper模型的提示词

  • whisper模型希伯来语提示词: 发音语言为瑞典语时发送给whisper模型的提示词

  • whisper模型孟加拉语提示词: 发音语言为瑞典语时发送给whisper模型的提示词

  • whisper模型波斯语提示词: 发音语言为波斯语时发送给whisper模型的提示词

  • whisper模型乌尔都语提示词: 发音语言为乌尔都语时发送给whisper模型的提示词

  • whisper模型粤语提示词: 发音语言为粤语时发送给whisper模型的提示词

  • whisper模型罗马尼亚语提示词: 发音语言为罗马尼亚语时发送给whisper模型的提示词

  • whisper模型菲律宾语提示词: 发音语言为菲律宾语时发送给whisper模型的提示词