语音识别渠道
语音识别(ASR)是视频翻译的第一步,将音频或视频中的人声转录为带时间轴的字幕文件。pyVideoTrans 支持 15+ 种识别渠道。
本地离线识别
无需联网,首次使用时下载模型。
| 渠道 | 说明 | GPU 加速 | 推荐度 | 模型下载地址 |
|---|---|---|---|---|
| faster-whisper(本地内置) | 速度快、质量高、支持数十种语言 | ✅ | ⭐⭐⭐ 默认推荐 | 点击进入详情页查看 |
| openai-whisper(本地内置) | 准确度高,速度较慢 | ✅ | ⭐⭐⭐ | 点击进入详情页查看 |
| Qwen-ASR(本地内置) | 中文效果佳 | ✅ | ⭐⭐⭐ 中文推荐 | https://huggingface.co/collections/Qwen/qwen3-asr |
| FunASR(本地内置) | 中文效果佳 | ✅ | ⭐⭐⭐ 中文推荐 | 点击进入详情页查看 |
| Firered中文(本地内置) | 中文+20中文方言 | X | ⭐⭐ | https://modelscope.cn/models/himyworld/videotrans/files |
| Dolphin(本地内置) | 40东方语言 +20中文方言 | X | ⭐⭐ | https://modelscope.cn/models/himyworld/videotrans/files |
| Omnilingual ASR(本地内置) | 1600多种语言 | X | ⭐⭐ | https://modelscope.cn/models/himyworld/videotrans/files |
| parakeet-ja(本地内置) | 仅支持日语 | X | ⭐⭐ | https://modelscope.cn/models/himyworld/videotrans/files |
| Huggingface_ASR(本地内置) | 支持多种语言模型 | ✅ | ⭐⭐ | 点击进入详情页查看 |
| Faster-Whisper-XXL.exe | faster-whisper的Windows封装版本,需自定额外下载并指定exe | ✅ | ⭐⭐ | 点击进入详情页查看 |
| whisper.cpp | 使用 whisper.cpp 后端,需自行额外下载并指定二进制路径 | ✅ | ⭐⭐ | 点击进入详情页查看 |
模型选择建议
| 模型 | 速度 | 准确度 | 显存需求 |
|---|---|---|---|
| tiny | 最快 | 低 | ~1GB |
| base | 快 | 中低 | ~1GB |
| small | 中 | 中 | ~2GB |
| medium | 慢 | 较高 | ~5GB |
| large-v3 | 最慢 | 最高 | ~8GB |
| large-v3-turbo | 较快 | 高 | ~6GB |
推荐:large-v3-turbo,速度与质量兼顾。
在线识别(有免费额度)
| 渠道 | 说明 |
|---|---|
| 阿里百炼 Qwen3-ASR | 需开通阿里百炼平台服务 |
| Elevenlabs.io 语音识别 | 免费额度有限 |
| Deepgram.com | 高准确率,需注册 API Key |
| Gemini AI | 识别小语种能力强,需科学上网 |
在线识别(付费)
| 渠道 | 说明 |
|---|---|
| 302.AI | 访问 302.ai 申请 |
| 字节语音识别大模型极速版 | 中文效果极佳 |
| OpenAI 语音识别API | 效果优秀,需 SK 密钥 |
高级自定义
| 渠道 | 说明 |
|---|---|
| Parakeet-tdt(本地API) | 需自行单独部署 |
| WhisperX(本地API) | 需自行单独部署 |
| STT(本地API) | 需自行单独部署 |
| Whisper.NET | 支持AMD显卡加速,需源码安装并按照文档说明下载相关dll |
| 自定义语音识别 API | 可编写自己的识别接口 |
Huggingface_ASR 可用模型
| 模型 | 支持语言 |
|---|---|
| nvidia/parakeet-ctc-1.1b | 英语 |
| reazon-research/japanese-wav2vec2-large-rs35kh | 日语 |
| kotoba-tech/kotoba-whisper-v2.0 | 日语 |
| biodatlab/whisper-th-large-v3 | 泰语 |
| vinai/Phowhisper-large | 越南语 |
| anke01/whisper-small-uyghur | 维吾尔语 |
| openai/whisper-large-v3 | 所有语言 |
