Whisper_CPP 语音识别集成

这是什么？

Whisper_CPP 是 OpenAI Whisper 模型的 C++ 高性能实现版本，通过 pythonnet 和 Whisper.net 库与 pyVideoTrans 集成。相比原生 Python 实现，Whisper_CPP 具有更快的推理速度和更低的内存占用。

核心优势：

原生 C++ 实现，运行效率高
支持 CUDA（NVIDIA）和 Vulkan（AMD）GPU 加速
无需安装复杂的 Python 依赖
模型文件格式为 GGML，体积更小

支持的模型

Whisper_CPP 使用 GGML 格式模型文件（.bin 扩展名），支持以下模型：

模型文件	参数量	显存需求	识别效果	推荐场景
ggml-tiny.bin	39M	~1GB	一般	快速测试
ggml-base.bin	74M	~1GB	较好	日常简单场景
ggml-small.bin	244M	~2GB	好	多语言识别
ggml-medium.bin	769M	~5GB	很好	高精度识别
ggml-large-v1.bin	1550M	~10GB	好	大模型 v1
ggml-large-v2.bin	1550M	~10GB	很好	大模型 v2
ggml-large-v3.bin	1550M	~10GB	最佳	最高精度
ggml-large-v3-turbo.bin	1550M	~10GB	最佳且更快	推荐首选

推荐：ggml-large-v3-turbo.bin 在保持最高精度的同时速度更快，是大多数用户的首选。

环境要求

Windows 系统

Windows 10/11 64位
如需 GPU 加速：
- NVIDIA 显卡：需要安装对应版本的 CUDA Toolkit（支持 CUDA 11.x 或 12.x）
- AMD 显卡：需要支持 Vulkan 的驱动程序

macOS 系统

macOS 12.0 或更高版本
支持 Apple Silicon (M1/M2/M3) 和 Intel 处理器

安装步骤

步骤一：下载 whisper-cli 主程序

根据你的操作系统和硬件情况，选择对应的预编译版本：

下载地址：https://github.com/ggml-org/whisper.cpp/releases/tag/v1.8.2

系统配置	下载文件	说明
Windows（无 NVIDIA 显卡）	`whisper-bin-x64.zip`	CPU 版本
Windows（有 NVIDIA 显卡，CUDA 12.x）	`whisper-cublas-12.4.0-bin-x64.zip`	CUDA 12 GPU 加速版
Windows（有 NVIDIA 显卡，CUDA 11.x）	`whisper-cublas-11.8.0-bin-x64.zip`	CUDA 11 GPU 加速版
macOS	`whisper-v1.8.2-xcframework.zip`	Apple 原生框架版

步骤二：解压并整理文件

将下载的压缩包解压到一个不含中文和空格的简短路径下
推荐路径：D:\whispercpp 或 C:\whispercpp
注意：路径中包含中文或空格可能导致程序运行异常，请务必避免。
解压后确认目录中包含 whisper-cli.exe 文件

确保依赖文件夹结构正确：

whispercpp/
├── whisper-cli.exe           （主程序）
├── deps/
│   ├── Whisper.net.dll       （.NET 绑定）
│   └── native/
│       └── whisper.cpp 原生库文件
└── models/
    └── ggml-*.bin            （模型文件，需自行下载）

步骤三：下载模型文件

从以下地址下载 GGML 格式模型文件：

官方推荐下载源：https://huggingface.co/ggerganov/whisper.cpp/tree/main
镜像下载源（国内更快）：https://hf-mirror.com/ggerganov/whisper.cpp/tree/main

下载后将 .bin 文件放入 Whisper_CPP 安装目录的 models 文件夹内。

步骤四：在 pyVideoTrans 中配置

打开 pyVideoTrans 软件
点击菜单栏 → 语音识别设置 → Whisper_CPP
点击"选择 whisper-cli"按钮
在文件浏览窗口中找到解压后的 whisper-cli.exe 文件
点击确定保存配置

关键参数说明

Whisper_CPP 支持以下可调参数，可根据需要在源码中调整：

参数名	默认值	说明
no_speech_threshold	-0.8	语音检测阈值，值越小越灵敏
logprob_threshold	-1.0	对数概率阈值，用于过滤低置信度结果
condition_on_previous_text	true	是否参考前文进行识别，开启可提高上下文连贯性

常见问题

问题	可能原因	解决方法
whisper-cli.exe 无法启动	缺少 VC++ 运行库	安装 Microsoft Visual C++ Redistributable
提示找不到模型文件	模型未下载或路径错误	将 `.bin` 模型文件放入 `models/` 目录
GPU 加速未生效	CUDA/Vulkan 环境未配置	安装对应版本的 CUDA Toolkit 或更新显卡驱动
识别速度很慢	使用了 CPU 版本	下载对应的 CUDA 加速版本并正确配置
识别结果不准	模型太小或语言设置错误	使用更大的模型，确认语言设置正确
路径包含中文报错	程序路径不支持中文	将 whisper-cli 移动到不含中文的路径下

Whisper_CPP 语音识别集成 ​

这是什么？ ​

支持的模型 ​

环境要求 ​

Windows 系统 ​

macOS 系统 ​

安装步骤 ​

步骤一：下载 whisper-cli 主程序 ​

步骤二：解压并整理文件 ​

步骤三：下载模型文件 ​

步骤四：在 pyVideoTrans 中配置 ​

关键参数说明 ​

常见问题 ​