Skip to content

一个基于 OpenAI Whisper 模型的免费转录语音为文字的Web服务,您只需打开浏览器即可使用,无需注册无需登录。

模型会在本地下载并运行,确保您的文件无需上传至任何外部服务器。

使用地址

https://stt.pyvideotrans.com


可供选择的模型

工具提供多种模型选项,包括:

  • tiny
  • base
  • small
  • medium
  • large-v1
  • large-v3

模型特点

  • 尺寸越小的模型(如 tinybase),运行速度越快,但转录精度相对较低;
  • 尺寸越大的模型(如 large-v1large-v3),精度越高,但运行速度较慢,且在性能较低的设备上可能导致浏览器崩溃。

如何使用

  1. 上传文件:点击选择需要转录的音频或视频文件。
  2. 选择模型:根据设备性能选择合适的模型。
    • 性能较弱的设备建议使用 tinybase
    • 性能较强的设备可选择 smallmedium
    • 除非设备性能极佳,否则避免选择过大模型,以免浏览器崩溃。
  3. 选择语言:指定音视频中的语音语言。
  4. 模型下载:首次使用某模型时,工具会从 Hugging Face 下载模型文件。由于该网站在国内可能无法直接访问,建议使用科学上网工具确保下载顺利。

注意事项

  • 隐私安全:模型下载后完全在本地运行,您的文件不会上传至任何服务器。
  • 性能依赖:模型选择和运行速度取决于您的设备性能。
  • 系统建议:推荐在 Windows 或 Linux 系统上使用 Chrome 浏览器。Mac 设备上的 M 系列芯片支持可能不够完善。

技术原理

  • 实现方式:工具基于 Transformers.js 技术,支持在浏览器中运行大型模型。
  • 模型来源:采用 OpenAI Whisper 模型,经过 Xenova/whisper-web 优化与转换。