1262 字
6 分钟
关于语音输入法的1点牢骚
2026-05-12
无标签

天哪🫢我居然有1个博客吗?欸⬆️!

好了不开玩笑了,今天上来讲讲自己这两天在干嘛

如果不记录1下的话这几天的时间就白浪费了

我1定要把这个教训记下来

事情是这样的,现在不是迈入了vibe coding的时代了吗.随着自然语言编程逐渐变为现实.

你会发现打字叫ai干活完全没有说话快.于是1个好用的语音输入法就成了兵家必争之地了

然而商业的输入法都绑定了各种乱78糟的玩意儿,有些啊…考虑到这是1个要公开的网页我就不点名给点面子

有些输入法能不能不要惦记着你那pdf编辑器了,我又不是没有.每次用着用着就莫名其妙的给我换掉😡

不过除了那个老牌输入法之外.ai新秀们做的输入法其实也不太好用.

虽然得益于新的大语言模型它们的跑分很不错

但是我真的觉得1个零点几最多1点几b的小模型没有必要跑在云端吧

我租的房网又不好用这种在线的输入法延迟高到离谱,这就更不要提:

有些电商大厂做的那个东西啊, 1个输入法你非要给我绑个半个g的浏览器套壳程序在里面是吧,这年头内存本来就贵.而且有的厂商…是吧…就他1家还要出好几个ai app,就算我新买的电脑是32g内存也经不起你这么玩啊.

当然我也试过微软的,微软的行为很抽象就是它输入法里的语音输入是要在线运行的但是他辅助功能里有个语音操控电脑的功能,这玩意附带1个语音输入的能力,但却是不需要网的,不过识别率并不是很高

所以如果你不小心在这篇文章里看到了错别字,不用想,微软的这个辅助功能要负全责

所以就想着要不自己做1个然后就掉入了1个无底坑 我先去看那hugging face的那个排行榜.

Open ASR Leaderboard - a Hugging Face Space by hf-audio

从上到下1个1个模型的看看看有没有合适的。。。。。。

算了我还赶时间我就直说吧

就是我从上往下1个1个试下来,他们要不就是只支持linux要么就是只支持英语,要么就是不支持流式的传输,而我却偏偏想要找1个支持中文的可以牛市传说的最好还带windows上有个gpu加速的模型。

然后折腾了两3天,openrouter上烧了我5美刀,结果也连个最基本的demo都跑不起来。

折腾到最后1天晚上将近12点的时候,才发现这个项目自带rust绑定,

k2-fsa/sherpa-onnx: Speech-to-text, text-to-speech, speaker diarization, speech enhancement, source separation, and VAD using next-gen Kaldi with onnxruntime without Internet connection. Support embedded systems, Android, iOS, HarmonyOS, Raspberry Pi, RISC-V, RK NPU, Axera NPU, Ascend NPU, x86_64 servers, websocket server/client, support 12 programming languages

甚至还有rust的演示demo

甚至这个demo1个脚本就跑起来了

甚至他跑起来的这个demo就是我之前死活跑不起来的Qwen ASR

甚至他跑起来之后根本不需要显卡也可以跑进实时

甚至他根本就没有做到流式传输他也可以伪装成实时。

就是从原理上看着很不好但跑起来效果非常好

唯一美中不足的就是文档有点乱

不过这两天的探索就到此为止了

回顾这两天的摸索

我觉得我就是太想从底层开始做绕开这些中间商了

我总觉得这样软件写的会更干净而且我们也可以更快的拿到1些底层的新技术

但事实证明挣扎在这些自己并不熟悉的底层架构其实效率很低

1个成熟的方案确实可以帮你解决很多事情,这种项目存在就是有意义的。

也许比起自己从底层开始1层1层的往上搭建方案,不如想清楚自己的需求然后去找1个100分100符合你需求的方案,但是不要去管这个方案是怎么实现的。

就这样我还我还是尽量以后在这个博客上写点儿东西。今天就是这样更了1篇莫名其妙的小水文章,但我至少更新了,对吧。来日方长,我还没有放弃这个网站的,我们有缘再见!

哦对了你有没有注意到今天这篇文章里所有的数字都是数字而不是中文的一?这也是微软这个辅助功能的1大特色

关于语音输入法的1点牢骚
https://thisland.netlify.app/posts/asr/
作者
薿薿
发布于
2026-05-12
许可协议
CC BY-NC-SA 4.0