语音识别渠道

语音识别（ASR）是视频翻译的第一步，将音频或视频中的人声转录为带时间轴的字幕文件。pyVideoTrans 支持 15+ 种识别渠道。

本地离线识别

无需联网，首次使用时下载模型。

渠道	说明	GPU 加速	推荐度	模型下载地址
faster-whisper(本地内置)	速度快、质量高、支持数十种语言	✅	⭐⭐⭐ 默认推荐	点击进入详情页查看
openai-whisper(本地内置)	准确度高，速度较慢	✅	⭐⭐⭐	点击进入详情页查看
Qwen-ASR(本地内置)	中文效果佳	✅	⭐⭐⭐ 中文推荐	https://huggingface.co/collections/Qwen/qwen3-asr
FunASR(本地内置)	中文效果佳	✅	⭐⭐⭐ 中文推荐	点击进入详情页查看
Firered中文(本地内置)	中文+20中文方言	X	⭐⭐	https://modelscope.cn/models/himyworld/videotrans/files
Dolphin(本地内置)	40东方语言 +20中文方言	X	⭐⭐	https://modelscope.cn/models/himyworld/videotrans/files
Omnilingual ASR(本地内置)	1600多种语言	X	⭐⭐	https://modelscope.cn/models/himyworld/videotrans/files
parakeet-ja(本地内置)	仅支持日语	X	⭐⭐	https://modelscope.cn/models/himyworld/videotrans/files
Huggingface_ASR(本地内置)	支持多种语言模型	✅	⭐⭐	点击进入详情页查看
Faster-Whisper-XXL.exe	faster-whisper的Windows封装版本,需自定额外下载并指定exe	✅	⭐⭐	点击进入详情页查看
whisper.cpp	使用 whisper.cpp 后端，需自行额外下载并指定二进制路径	✅	⭐⭐	点击进入详情页查看

模型选择建议

模型	速度	准确度	显存需求
tiny	最快	低	~1GB
base	快	中低	~1GB
small	中	中	~2GB
medium	慢	较高	~5GB
large-v3	最慢	最高	~8GB
large-v3-turbo	较快	高	~6GB

推荐：large-v3-turbo，速度与质量兼顾。

在线识别（有免费额度）

渠道	说明
阿里百炼 Qwen3-ASR	需开通阿里百炼平台服务
Elevenlabs.io 语音识别	免费额度有限
Deepgram.com	高准确率，需注册 API Key
Gemini AI	识别小语种能力强，需科学上网

在线识别（付费）

渠道	说明
302.AI	访问 302.ai 申请
字节语音识别大模型极速版	中文效果极佳
OpenAI 语音识别API	效果优秀，需 SK 密钥

高级自定义

渠道	说明
Parakeet-tdt(本地API)	需自行单独部署
WhisperX(本地API)	需自行单独部署
STT(本地API)	需自行单独部署
Whisper.NET	支持AMD显卡加速，需源码安装并按照文档说明下载相关dll
自定义语音识别 API	可编写自己的识别接口

Huggingface_ASR 可用模型

模型	支持语言
nvidia/parakeet-ctc-1.1b	英语
reazon-research/japanese-wav2vec2-large-rs35kh	日语
kotoba-tech/kotoba-whisper-v2.0	日语
biodatlab/whisper-th-large-v3	泰语
vinai/Phowhisper-large	越南语
anke01/whisper-small-uyghur	维吾尔语
openai/whisper-large-v3	所有语言