每天写日记,一直是我的小小心愿。从学生时代的周记,到后来尝试用电子笔记记录日记,我始终无法坚持下来。问题出在哪儿呢?要么是一天忙到头,根本没机会坐在电脑前回顾一天的点滴;要么是移动端操作太繁琐,让我望而却步。于是,写日记这件事,总是写写停停,难以持续。
几次偶然的机会,我尝试用手机的语音识别功能,将语音转文字,再复制到思源笔记的日记中。这一试,我发现了一个奇妙的现象:通过语音记录的内容,比我手动打字写得更多,细节也更丰富。但问题也随之而来——效率更低了!因为口语化的文字需要花时间整理,这又让我打起了退堂鼓。
直到最近,我发现了智能体这个神奇的存在。利用大模型对文字的强大处理能力,结合自由设置的工作流,我终于找到了解决这个难题的钥匙。
工作流程
-
语音转文字:先用手机输入法的语音识别功能,将语音转化为文字。
-
文字处理与转换:将生成的文字发送给智能体,智能体再将文字传递给大模型,将其转换为书面语。
(1)开始节点
(2)大模型节点,选择了硅基流动的一个免费模型,具体参数和提示词自己再优化吧。提示词中使用上一步开始的参数 -
存储与归档:最后,利用思源笔记的 API,将转换后的文字存入相应的位置。
(1)HTTP 节点,如果有鉴权在 ① 中设置,② 的 data 使用上一步大模型的输出
(2)HTTP 请求的异常节点。上面是正常结束,就是大模型的输出,下面是异常结束,显示错误信息。
关键问题与解决方案
虽然目前智能体平台众多(最火的当然是 coze),但 Dify 凭借其开源特性脱颖而出。它可以自行部署,甚至可以放在与思源笔记同一台电脑上,通过局域网的 API 进行通信。发布后,Dify 的智能体将拥有一个特定的网址,可以通过手机浏览器访问。即使没有公网 IP,也可以借助内网穿透或异地组网来实现访问。
在大模型的选择上,我尝试了几个免费的模型,效果勉强能用,但偶尔会出现语义理解偏差的问题。这可能是因为我在说话时表达不够清晰,也可能是模型本身的局限性。提示词和参数还需要优化。
操作演示
具体操作非常简单:打开智能体的网址,在对话框中使用手机语音识别输入,点击发送按钮,口语化的日记内容就会被自动整理成书面语,并存储到思源笔记当中。从此,再也不用每天对着键盘敲敲打打了!
最后如果大家想注册火山引擎可以用我的邀请码 ~
DeepSeek 满血版免费领啦!邀请好友注册和使用,最高双方可获得 145 元代金券,免费抵扣 3625 万 tokens,畅享 R1 与 V3 模型!参与入口。邀请码:IQFXI23D
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于