时间:2026.2.7
本地有一些视频文件需要进行语音转录,过去的方式是使用剪映的字幕识别功能,不过考虑到有高强度批量化使用,同时保证隐私并且低成本的方案,因此开始搜寻开源STT解决方案。
在和Gemini以及Kimi进行讨论之后,根据4060+i9的笔记本配置,选择的模型是openai的Whisper-large-v3-turbo开源模型
HuggingFace链接:https://huggingface.co/openai/whisper-large-v3-turbo
随后发现有已经打包好的套壳开源GUI软件buzz
项目链接:https://github.com/chidiwilliams/buzz
在Release页面下载好exe和对应的bin文件之后就可以开始使用了,初次使用的时候下载模型需要一定时间
速度和效果都挺好的,还可以支持粤语识别和实时录制
由此实现了STT自由