Skip to content

Qwen-ASR 本地语音识别模型

这是什么?

Qwen-ASR 是由阿里巴巴通义千问团队开发的本地语音识别模型,能够在不联网的情况下将音频中的语音内容转换为文字。该模型完全在本地运行,保护隐私的同时提供高精度的语音识别能力。

在 pyVideoTrans 的语音识别渠道中选择 Qwen-ASR(本地) 即可使用此模型。

版本要求

必须升级到 v3.97+ 版本才能使用 Qwen-ASR 本地模型

模型选择

Qwen-ASR 提供两种尺寸的模型,各有优劣:

模型参数量识别准确率资源消耗推荐场景
0.6B6亿参数较高较低显存有限、追求速度
1.7B17亿参数更高较高追求准确率、显存充足
  • 0.6B 模型:体积较小,推理速度快,对显存要求较低,适合配置一般的电脑
  • 1.7B 模型:识别准确率更高,但需要更多显存和计算资源,适合追求最佳效果的用户

模型下载

自动下载(推荐)

首次使用时,软件会自动从模型仓库下载所需模型,无需手动操作。中文界面默认使用 ModelScope(魔搭)国内镜像下载。

手动下载

如果自动下载失败或速度较慢,可以手动下载模型。

步骤一:确认目录结构

在软件目录下确认存在以下模型文件夹,如不存在请手动创建:

软件目录/
└── models/
    ├── models--Qwen--Qwen3-ASR-0.6B/    (0.6B模型目录)
    └── models--Qwen--Qwen3-ASR-1.7B/    (1.7B模型目录)

步骤二:下载 1.7B 模型

  1. 打开 HuggingFace 下载页面:https://huggingface.co/Qwen/Qwen3-ASR-1.7B/tree/main
  2. 将页面中所有文件下载下来
  3. 将下载的文件全部放入 models/models--Qwen--Qwen3-ASR-1.7B 文件夹内

步骤三:下载 0.6B 模型

  1. 打开 HuggingFace 下载页面:https://huggingface.co/Qwen/Qwen3-ASR-0.6B/tree/main
  2. 将页面中所有文件下载下来
  3. 将下载的文件全部放入 models/models--Qwen--Qwen3-ASR-0.6B 文件夹内

步骤四:选择模型

在软件界面的语音识别设置中,根据需要选择 0.6B1.7B 模型。

工作原理

Qwen-ASR 本地模型采用 VAD(语音活动检测) 技术进行音频预处理:

  1. 使用 ten-vad 模型对音频进行智能裁切,分割为多个短音频片段
  2. 将裁切后的片段按照每 8 个为一批进行批量推理
  3. 最终合并所有片段的识别结果

这种方式的优势是显存占用低、推理速度快,适合处理长音频文件。

高级配置:使用 ForcedAligner 对齐

什么是 ForcedAligner

Qwen 官方提供 Qwen/Qwen3-ForcedAligner-0.6B 模型用于精确的时间轴对齐。与默认的 VAD 方式不同,ForcedAligner 能直接处理完整长音频,提供更精确的字级时间戳。

为什么默认不启用

  • 显存消耗非常大
  • 推理速度较慢
  • 无法展示实时转录进度,长音频处理时界面会长时间无响应

手动启用 ForcedAligner

如果你对断句精度有更高要求,可以通过以下步骤手动启用 ForcedAligner:

前置条件:需要以源码方式部署 pyVideoTrans

第一步:修改 stt_fun.py

打开 videotrans/process/stt_fun.py 文件,进行以下修改:

  1. 将原函数 qwen3asr_fun 重命名为 qwen3asr_fun_bak
python
# 修改前
def qwen3asr_fun(
        cut_audio_list=None,
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0
):
    ...

# 修改后
def qwen3asr_fun_bak(
        cut_audio_list=None,
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0
):
    ...
  1. 将原函数 qwen3asr_fun0 重命名为 qwen3asr_fun
python
# 修改前
def qwen3asr_fun0(
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0
):
    ...

# 修改后
def qwen3asr_fun(
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0
):
    ...

第二步:修改 _qwenasrlocal.py

打开 videotrans/recognition/_qwenasrlocal.py 文件:

  1. 取消以下两行代码前的 # 注释符号,以便自动下载对齐模型:
python
# 取消注释 ModelScope 下载(中文环境推荐)
tools.check_and_down_ms('Qwen/Qwen3-ForcedAligner-0.6B',callback=self._process_callback,local_dir=f'{config.ROOT_DIR}/models/models--Qwen--Qwen3-ForcedAligner-0.6B')

# 或取消注释 HuggingFace 下载
tools.check_and_down_hf(model_id='Qwen3-ForcedAligner-0.6B',repo_id='Qwen/Qwen3-ForcedAligner-0.6B',local_dir=f'{config.ROOT_DIR}/models/models--Qwen--Qwen3-ForcedAligner-0.6B',callback=self._process_callback)

手动下载方式:也可以手动下载 ForcedAligner 模型,地址为 https://huggingface.co/Qwen/Qwen3-ForcedAligner-0.6B/tree/main,将所有文件放入 models/models--Qwen--Qwen3-ForcedAligner-0.6B 文件夹内。

  1. 同一文件中,将代码:
python
return jsdata#self.segmentation_asr_data(jsdata)

修改为:

python
return self.segmentation_asr_data(jsdata)

第三步:重启软件

所有修改完成后,重新启动 pyVideoTrans 即可。

常见问题

问题可能原因解决方法
模型下载失败网络问题或 HuggingFace 被屏蔽使用 ModelScope 镜像下载,或手动下载模型文件
识别结果为空音频格式不支持确保音频为常见格式(wav/mp3/aac),建议先转为 wav
显存不足报错显卡显存不够使用 0.6B 小模型,或关闭其他占用显存的程序
识别速度很慢没有使用 GPU 加速检查 CUDA 环境是否正确配置
软件界面卡死长音频处理时间过长这是正常现象,耐心等待;或使用较短的音频片段