Caps Writer 发布:按住大写锁定键,进行语音识别输入

本贴最后更新于 1625 天前,其中的信息可能已经时移世易

Caps Writer

简介

一款语音输入工具,下载运行后,把它最小化,按下大写锁定键超过 0.3 秒后,开始语音识别,松开按键之后,自动输入识别文字。

地址

Github

描述

本工具(Caps Writer)是一个电脑端的语音输入工具,使用了阿里云的一句话识别 api

(有兴趣的可以改成百度、腾讯、讯飞的 api 试试)。

使用方法很简单:运行程序后,按下 Caps Lock(也就是大写锁定键)超过 0.3 秒后,就会开始用阿里云的 api 进行语音识别,松开按键后,会将识别结果自动输入。(不用担心会启用大写锁定,在松开的时候,大写锁定状态会自动恢复)

因为使用了阿里云的 api,所以需要用户自己到阿里云申请,再填到 token.ini 中才能正常使用。

对于聊天时候进行快捷输入、写代码时快速加入中文注释非常的方便。

开发动机

我就气抖冷,为什么直到现在,仍然没有开发者做过一个好用的语音输入工具?

有人建议用搜狗输入法、讯飞输入法的语音输入,但这几个方面是真让人受不了:

  • 广告太多,拒绝安装
  • 我主力五笔,不使用搜狗输入法、讯飞输入法,顶多临时用下微软拼音
  • 就以搜狗输入法为例,它的语音输入快捷键只能是 Ctrl + Shift + A/B/C……,有以下槽点:
    • 这个快捷键会和许多软件的快捷键冲突,且不好记
    • 打字时,按这样三个快捷键,手指很别扭,不爽
    • 它的逻辑是按下快捷键后,启用语音输入,你一停顿一下,要说下一名,语音输入却结束了,不能让用户决定什么时候结束语音输入。

为了在电脑上语音输入,我之前是用的 Quicker 的手机端进行语音识别,输入到电脑上,需要两个设备,非常麻烦。今天终于做好我心目中最好用的电脑端语音输入工具了!

视频演示

开箱即用

小白用户,只需要在 Release 界面下载打包好的 exe 文件,运行,会在同级目录生成一个 token.ini 文件,在 token.ini 中填入你阿里云拥有 管理智能语音交互(NLS) 权限的 RAM 访问控制 用户的 Accesskey IdAccesskey Secret 和智能语音交互语音识别项目的 appkey ,就可以正常使用了。详细步骤之后我录一个视频

安装使用

本工具是一个 python 脚本,上面小白下载的 Release 其实是用 pyinstaller 导出的 exe 文件,如果你想在源码基础上使用,就需要安装以下模块:

  • keyboard
  • pyaudio
  • configparser
  • aliyunsdkcore
  • alibabacloud-nls-python-sdk

其中:

  • pyaudio 在 windows 上不是太好安装,可以先到这个链接 下载 pyaudio 对应版本的 whl 文件,再用 pip 安装
  • alibabacloud-nls-python-sdk 不是通过 python 安装,而是通过阿里云官方文档的方法 进行安装。

另外,需要在 run.py 中填入阿里云拥有 管理智能语音交互(NLS) 权限的 RAM 访问控制 用户的 accessIDaccessKey 和智能语音交互语音识别项目的 appkey

做完以上步骤后,只要运行 run.py 就可以用了!

本文件夹内有一个 安装指南 文件夹,在里面可以找到详细的安装指南,还包括了提前下载的 alibabacloud-nls-python-sdk 和 pyaudio 的 whl 文件。

后话

因为作者就是本着凑合能用就可以了的心态做这个工具的,所以图形界面什么的也没做,整个工具单纯就一个脚本,功能也就一个,按住大写锁定键开始语音识别,松开后输入结果。目前作者本人已经很满意。

欢迎有想法有能力的人将这个工具加以改进,比如加入讯飞、腾讯、百度的语音识别 api,长按 0.3 秒后开始识别时加一个提示等等等等。

  • 语音识别
    3 引用 • 7 回帖
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    545 引用 • 672 回帖
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    178 引用 • 997 回帖
6 操作
HaujetZhao 在 2020-07-11 11:14:02 更新了该帖
HaujetZhao 在 2020-07-11 11:12:34 更新了该帖
HaujetZhao 在 2020-07-11 00:23:55 更新了该帖
HaujetZhao 在 2020-07-10 19:04:41 更新了该帖 HaujetZhao 在 2020-07-10 18:09:25 更新了该帖 HaujetZhao 在 2020-07-10 17:16:17 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • lizhongyue248 1 赞同

    emmm,我觉得你需要清理一波灰尘 😂

  • 标题里有 typo

  • PeterChu

    优秀 ✧。٩(ˊ ω ˋ)و✧*。

    语音输入痛点是识别错误需要检查手动改错吧,识别率的问题可能是关键。

    1 回复
  • HaujetZhao 3 评论

    识别率方面,阿里的准确率可以接受 。最大的优势是快。一些简单的专业词汇少、没有包含名字的句子 直接语音输入就完事 。

    我觉得五笔和语音输入应该是绝搭,因为语音输入的错误 帮忙出现在单字或者两三个字上面,用拼音输入纠错的话 选字都要一段时间,但是五笔就可以 非常快速精确的输入一个单字,进行修改。

    没错,不过五笔太难了,学习成本太高
    PeterChu
    @PeterChu 一下午学会,一周上手,熟练就要靠练习了。我就是使用者,自己的感受是,五笔上手难度其实比 git 简单多了。
    HaujetZhao
    @HaujetZhao 哈哈对,我记得当时我们初中上过几节课学了,背口诀和拆字略麻烦,就是要练。后来出智能 ABC 了彻底就抛弃了
    PeterChu
  • function
    该回帖仅作者和楼主可见