Qwen-ASR 本地语音识别模型

这是什么？

Qwen-ASR 是由阿里巴巴通义千问团队开发的本地语音识别模型，能够在不联网的情况下将音频中的语音内容转换为文字。该模型完全在本地运行，保护隐私的同时提供高精度的语音识别能力。

在 pyVideoTrans 的语音识别渠道中选择 Qwen-ASR(本地) 即可使用此模型。

版本要求

必须升级到 v3.97+ 版本才能使用 Qwen-ASR 本地模型

模型选择

Qwen-ASR 提供两种尺寸的模型，各有优劣：

模型	参数量	识别准确率	资源消耗	推荐场景
0.6B	6亿参数	较高	较低	显存有限、追求速度
1.7B	17亿参数	更高	较高	追求准确率、显存充足

0.6B 模型：体积较小，推理速度快，对显存要求较低，适合配置一般的电脑
1.7B 模型：识别准确率更高，但需要更多显存和计算资源，适合追求最佳效果的用户

模型下载

自动下载（推荐）

首次使用时，软件会自动从模型仓库下载所需模型，无需手动操作。中文界面默认使用 ModelScope（魔搭）国内镜像下载。

手动下载

如果自动下载失败或速度较慢，可以手动下载模型。

步骤一：确认目录结构

在软件目录下确认存在以下模型文件夹，如不存在请手动创建：

软件目录/
└── models/
    ├── models--Qwen--Qwen3-ASR-0.6B/    （0.6B模型目录）
    └── models--Qwen--Qwen3-ASR-1.7B/    （1.7B模型目录）

步骤二：下载 1.7B 模型

打开 HuggingFace 下载页面：https://huggingface.co/Qwen/Qwen3-ASR-1.7B/tree/main
将页面中所有文件下载下来
将下载的文件全部放入 models/models--Qwen--Qwen3-ASR-1.7B 文件夹内

步骤三：下载 0.6B 模型

打开 HuggingFace 下载页面：https://huggingface.co/Qwen/Qwen3-ASR-0.6B/tree/main
将页面中所有文件下载下来
将下载的文件全部放入 models/models--Qwen--Qwen3-ASR-0.6B 文件夹内

步骤四：选择模型

在软件界面的语音识别设置中，根据需要选择 0.6B 或 1.7B 模型。

工作原理

Qwen-ASR 本地模型采用 VAD（语音活动检测） 技术进行音频预处理：

使用 ten-vad 模型对音频进行智能裁切，分割为多个短音频片段
将裁切后的片段按照每 8 个为一批进行批量推理
最终合并所有片段的识别结果

这种方式的优势是显存占用低、推理速度快，适合处理长音频文件。

高级配置：使用 ForcedAligner 对齐

什么是 ForcedAligner

Qwen 官方提供 Qwen/Qwen3-ForcedAligner-0.6B 模型用于精确的时间轴对齐。与默认的 VAD 方式不同，ForcedAligner 能直接处理完整长音频，提供更精确的字级时间戳。

为什么默认不启用

显存消耗非常大
推理速度较慢
无法展示实时转录进度，长音频处理时界面会长时间无响应

手动启用 ForcedAligner

如果你对断句精度有更高要求，可以通过以下步骤手动启用 ForcedAligner：

前置条件：需要以源码方式部署 pyVideoTrans

第一步：修改 stt_fun.py

打开 videotrans/process/stt_fun.py 文件，进行以下修改：

将原函数 qwen3asr_fun 重命名为 qwen3asr_fun_bak：

python

# 修改前
def qwen3asr_fun(
        cut_audio_list=None,
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0
):
    ...

# 修改后
def qwen3asr_fun_bak(
        cut_audio_list=None,
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0
):
    ...

将原函数 qwen3asr_fun0 重命名为 qwen3asr_fun：

python

# 修改前
def qwen3asr_fun0(
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0
):
    ...

# 修改后
def qwen3asr_fun(
        ROOT_DIR=None,
        logs_file=None,
        defaulelang="en",
        is_cuda=False,
        audio_file=None,
        TEMP_ROOT=None,
        model_name="1.7B",
        device_index=0
):
    ...

第二步：修改 _qwenasrlocal.py

打开 videotrans/recognition/_qwenasrlocal.py 文件：

取消以下两行代码前的 # 注释符号，以便自动下载对齐模型：

python

# 取消注释 ModelScope 下载（中文环境推荐）
tools.check_and_down_ms('Qwen/Qwen3-ForcedAligner-0.6B',callback=self._process_callback,local_dir=f'{config.ROOT_DIR}/models/models--Qwen--Qwen3-ForcedAligner-0.6B')

# 或取消注释 HuggingFace 下载
tools.check_and_down_hf(model_id='Qwen3-ForcedAligner-0.6B',repo_id='Qwen/Qwen3-ForcedAligner-0.6B',local_dir=f'{config.ROOT_DIR}/models/models--Qwen--Qwen3-ForcedAligner-0.6B',callback=self._process_callback)

手动下载方式：也可以手动下载 ForcedAligner 模型，地址为 https://huggingface.co/Qwen/Qwen3-ForcedAligner-0.6B/tree/main，将所有文件放入 models/models--Qwen--Qwen3-ForcedAligner-0.6B 文件夹内。

同一文件中，将代码：

python

return jsdata#self.segmentation_asr_data(jsdata)

修改为：

python

return self.segmentation_asr_data(jsdata)

第三步：重启软件

所有修改完成后，重新启动 pyVideoTrans 即可。

常见问题

问题	可能原因	解决方法
模型下载失败	网络问题或 HuggingFace 被屏蔽	使用 ModelScope 镜像下载，或手动下载模型文件
识别结果为空	音频格式不支持	确保音频为常见格式（wav/mp3/aac），建议先转为 wav
显存不足报错	显卡显存不够	使用 0.6B 小模型，或关闭其他占用显存的程序
识别速度很慢	没有使用 GPU 加速	检查 CUDA 环境是否正确配置
软件界面卡死	长音频处理时间过长	这是正常现象，耐心等待；或使用较短的音频片段

Qwen-ASR 本地语音识别模型 ​

这是什么？ ​

版本要求 ​

模型选择 ​

模型下载 ​

自动下载（推荐） ​

手动下载 ​

步骤一：确认目录结构 ​

步骤二：下载 1.7B 模型 ​

步骤三：下载 0.6B 模型 ​

步骤四：选择模型 ​

工作原理 ​

高级配置：使用 ForcedAligner 对齐 ​

什么是 ForcedAligner ​

为什么默认不启用 ​

手动启用 ForcedAligner ​

第一步：修改 stt_fun.py ​

第二步：修改 _qwenasrlocal.py ​

第三步：重启软件 ​

常见问题 ​

Qwen-ASR 本地语音识别模型

这是什么？

版本要求

模型选择

模型下载

自动下载（推荐）

手动下载

步骤一：确认目录结构

步骤二：下载 1.7B 模型

步骤三：下载 0.6B 模型

步骤四：选择模型

工作原理

高级配置：使用 ForcedAligner 对齐

什么是 ForcedAligner

为什么默认不启用

手动启用 ForcedAligner

第一步：修改 stt_fun.py

第二步：修改 _qwenasrlocal.py

第三步：重启软件

常见问题