Ai文字轉語音、語音轉文字! 這幾種方法你最好要知道
Ai文字轉語音、語音轉文字! 這幾種方法你最好要知道 从此存储库的“发布”部分下载 WhisperDesktop.zip,解压缩 ZIP,然后运行 WhisperDesktop.exe。 在第一个屏幕上,它会要求您下载模型。我推荐ggml-medium.bin(大小为 1.42GB),因为我主要使用该模型测试了软件。 下一个屏幕允许转录音频文件。 还有另一个屏幕允许从麦克风捕获和转录或翻译实时音频 特征 基于 DirectCompute 的供应商不可知的 GPGPU;该技术的另一个名称是“Direct3D 11 中的计算着色器” 纯 C++ 实现,除了基本的 OS 组件外没有运行时依赖性 比 OpenAI 的实现快得多。 在我配备 GeForce 1080Ti GPU 的中型台式计算机上, 使用 PyTorch 和 CUDA 转录 3 分 24 秒的演讲需要 45 秒,但使用我的实现和 DirectCompute 只需要 19 秒。 趣闻:这是 9.63 GB 的运行时依赖项,而 431 KB Whisper.dll 混合 F16 / F32 精度:自 D3D 版本 10.0 起,Windows 需要 缓冲区 的支持 R16_FLOAT 内置性能分析器,可测量单个计算着色器的执行时间 内存使用率低 用于音频处理的媒体基础,支持大多数音频和视频格式(Ogg Vorbis 除外),以及大多数在 Windows 上运行的音频捕获设备(除了一些专业的,它们只实现 ASIO API ) 。 用于音频捕获的语音活动检测。 该实现基于Mohammad Moattar 和 Mahdi Homayoonpoor 于 2009 年发表的文章 “一种简单但高效的实时语音活动检测算法”。 易于使用的 COM 风格 API, nuget 上可用的惯用 C# 包装器 提供预构建的二进制文件 唯一受支持的平台是 64 位 Windows。应该可以在 Windows 8.1 或更高版本上运行,但我只在 Windows 10 上测试过。该库需要支持 Direct3D 11.0 的 GPU,这在 2023 年就意味着“任何硬件 GPU”。最新的不支持 D3D 11.0 的 GPU 是 2011 年的 Intel Sandy Bri...