Skip to content

批量语音转字幕

支持的视频格式:mp4 / mov / avi / mkv / webm / mpeg / ogg / mts / ts

支持的音频格式:wav / mp3 / m4a / flac / aac

这是一个专门用于将音频视频文件转录为文字或字幕的功能面板。如果你不想翻译视频,而仅仅想批量根据音视频生成字幕,那么这个功能再合适不过了。

stt


操作流程

  1. 导入文件:点击顶部大按钮,或直接拖拽文件进去,可支持一个或多个文件
  2. 设置参数:选择原始语言、识别渠道和模型
  3. 开始转录:点击开始按钮

主要参数说明

基础设置

参数说明
启用 CUDAWindows/Linux 系统如果有 NVIDIA 显卡并配置了 CUDA,可选中以加快转录速度
原始语言音视频中说话的语言,请正确选择。如果不确定,可下拉选择「auto」自动检测

语音识别渠道

渠道说明推荐场景
faster-whisper(本地)本地模型,速度和质量都较好,支持数十种语言默认推荐
openai-whisper(本地)准确度略高,速度较慢高精度需求
Qwen-ASR(本地)中文效果极佳中文视频
阿里 FunASR(本地)中文优化模型中文视频
Huggingface_ASR(本地)支持多种语言模型多语言场景
字节火山字幕生成在线 API中文视频
OpenAI 语音识别在线 API英语等语言
Gemini 语音识别在线 API小语种支持
阿里 Qwen3-ASR在线 API中文视频

全部语音识别渠道说明点击查看

模型选择

模型越大越准确,但速度越慢、消耗资源越多:

模型速度准确度显存需求
tiny最快~1GB
base / small~1-2GB
medium较慢较高~5GB
large-v3最高~8GB
large-v3-turbo较快~6GB

高级功能

功能说明
降噪选中后,在语音识别之前先消除背景噪声,提升识别准确度
识别说话人选中后,识别结束后尝试区分不同说话人(后方数字设定预估说话人数)
插入说话人选中后,在字幕文本开头插入说话人标识,如 [spk0]
默认断句 / LLM 重新断句可选择默认断句,或使用大语言模型对识别结果进行智能断句和标点优化
输出格式默认以 SRT 字幕格式输出,可选 TXT、VTT、ASS
整体识别 vs 批量推理整体识别使用内置 VAD 检测语音,断句效果更佳;批量推理速度更快但断句略差
字幕输出原位置选中后将转录结果放在原始音视频同文件夹内

了解 VAD 参数调优 →


字幕多角色配音

支持为每行字幕单独指定一个发音人,实现多角色配音。

字幕多角色配音

多角色配音设置

支持配音的字幕格式:srt。更多详情请参考 原声克隆与多角色配音


常见问题

Q: 转录结果为空或乱码?

  1. 检查「原始语言」是否选择正确
  2. 检查视频是否有声音(某些在线视频画面和声音是分开下载的)
  3. 尝试开启降噪功能
  4. 更换识别渠道或模型

Q: 转录速度太慢?

  1. 启用 CUDA 加速(需要 NVIDIA 显卡)
  2. 使用较小的模型(如 base
  3. 将「最长语音持续秒数」设大一些,减少分割次数

Q: 如何提高中文识别效果?

推荐使用 Qwen-ASR 或阿里 FunASR,这两个模型对中文优化效果最好。