Skip to content

语音识别渠道

语音识别(ASR)是视频翻译的第一步,将音频或视频中的人声转录为带时间轴的字幕文件。pyVideoTrans 支持 15+ 种识别渠道。


本地离线识别

无需联网,首次使用时下载模型。

渠道说明GPU 加速推荐度模型下载地址
faster-whisper(本地内置)速度快、质量高、支持数十种语言⭐⭐⭐ 默认推荐点击进入详情页查看
openai-whisper(本地内置)准确度高,速度较慢⭐⭐⭐点击进入详情页查看
Qwen-ASR(本地内置)中文效果佳⭐⭐⭐ 中文推荐https://huggingface.co/collections/Qwen/qwen3-asr
FunASR(本地内置)中文效果佳⭐⭐⭐ 中文推荐点击进入详情页查看
Firered中文(本地内置)中文+20中文方言X⭐⭐https://modelscope.cn/models/himyworld/videotrans/files
Dolphin(本地内置)40东方语言 +20中文方言X⭐⭐https://modelscope.cn/models/himyworld/videotrans/files
Omnilingual ASR(本地内置)1600多种语言X⭐⭐https://modelscope.cn/models/himyworld/videotrans/files
parakeet-ja(本地内置)仅支持日语X⭐⭐https://modelscope.cn/models/himyworld/videotrans/files
Huggingface_ASR(本地内置)支持多种语言模型⭐⭐点击进入详情页查看
Faster-Whisper-XXL.exefaster-whisper的Windows封装版本,需自定额外下载并指定exe⭐⭐点击进入详情页查看
whisper.cpp使用 whisper.cpp 后端,需自行额外下载并指定二进制路径⭐⭐点击进入详情页查看

模型选择建议

模型速度准确度显存需求
tiny最快~1GB
base中低~1GB
small~2GB
medium较高~5GB
large-v3最慢最高~8GB
large-v3-turbo较快~6GB

推荐large-v3-turbo,速度与质量兼顾。


在线识别(有免费额度)

渠道说明
阿里百炼 Qwen3-ASR需开通阿里百炼平台服务
Elevenlabs.io 语音识别免费额度有限
Deepgram.com高准确率,需注册 API Key
Gemini AI识别小语种能力强,需科学上网

在线识别(付费)

渠道说明
302.AI访问 302.ai 申请
字节语音识别大模型极速版中文效果极佳
OpenAI 语音识别API效果优秀,需 SK 密钥

高级自定义

渠道说明
Parakeet-tdt(本地API)需自行单独部署
WhisperX(本地API)需自行单独部署
STT(本地API)需自行单独部署
Whisper.NET支持AMD显卡加速,需源码安装并按照文档说明下载相关dll
自定义语音识别 API可编写自己的识别接口

Huggingface_ASR 可用模型

模型支持语言
nvidia/parakeet-ctc-1.1b英语
reazon-research/japanese-wav2vec2-large-rs35kh日语
kotoba-tech/kotoba-whisper-v2.0日语
biodatlab/whisper-th-large-v3泰语
vinai/Phowhisper-large越南语
anke01/whisper-small-uyghur维吾尔语
openai/whisper-large-v3所有语言