用 Dify 智能体 + 思源笔记,轻松实现口语日记的高效记录与整理

每天写日记,一直是我的小小心愿。从学生时代的周记,到后来尝试用电子笔记记录日记,我始终无法坚持下来。问题出在哪儿呢?要么是一天忙到头,根本没机会坐在电脑前回顾一天的点滴;要么是移动端操作太繁琐,让我望而却步。于是,写日记这件事,总是写写停停,难以持续。

几次偶然的机会,我尝试用手机的语音识别功能,将语音转文字,再复制到思源笔记的日记中。这一试,我发现了一个奇妙的现象:通过语音记录的内容,比我手动打字写得更多,细节也更丰富。但问题也随之而来——效率更低了!因为口语化的文字需要花时间整理,这又让我打起了退堂鼓。

直到最近,我发现了智能体这个神奇的存在。利用大模型对文字的强大处理能力,结合自由设置的工作流,我终于找到了解决这个难题的钥匙。

工作流程

image.png

  • 语音转文字:先用手机输入法的语音识别功能,将语音转化为文字。

  • 文字处理与转换:将生成的文字发送给智能体,智能体再将文字传递给大模型,将其转换为书面语。
    (1)开始节点
    image.png
    (2)大模型节点,选择了硅基流动的一个免费模型,具体参数和提示词自己再优化吧。提示词中使用上一步开始的参数

    image.png

  • 存储与归档:最后,利用思源笔记的 API,将转换后的文字存入相应的位置。

(1)HTTP 节点,如果有鉴权在 ① 中设置,② 的 data 使用上一步大模型的输出

屏幕截图 20250304131009.png

(2)HTTP 请求的异常节点。上面是正常结束,就是大模型的输出,下面是异常结束,显示错误信息。

image.png

关键问题与解决方案

虽然目前智能体平台众多(最火的当然是 coze),但 Dify 凭借其开源特性脱颖而出。它可以自行部署,甚至可以放在与思源笔记同一台电脑上,通过局域网的 API 进行通信。发布后,Dify 的智能体将拥有一个特定的网址,可以通过手机浏览器访问。即使没有公网 IP,也可以借助内网穿透或异地组网来实现访问。

在大模型的选择上,我尝试了几个免费的模型,效果勉强能用,但偶尔会出现语义理解偏差的问题。这可能是因为我在说话时表达不够清晰,也可能是模型本身的局限性。提示词和参数还需要优化。

操作演示

具体操作非常简单:打开智能体的网址,在对话框中使用手机语音识别输入,点击发送按钮,口语化的日记内容就会被自动整理成书面语,并存储到思源笔记当中。从此,再也不用每天对着键盘敲敲打打了!

4dd40fc22efe83c9122e348dd03f774.jpg

最后如果大家想注册火山引擎可以用我的邀请码 ~

DeepSeek 满血版免费领啦!邀请好友注册和使用,最高双方可获得 145 元代金券,免费抵扣 3625 万 tokens,畅享 R1 与 V3 模型!参与入口。邀请码:IQFXI23D

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    24937 引用 • 102726 回帖
3 操作
Liuzn 在 2025-03-04 13:26:07 更新了该帖
Liuzn 在 2025-03-04 13:24:35 更新了该帖
Liuzn 在 2025-03-04 13:22:57 更新了该帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • pakeh2866

    这教程能不能稍微详细一点……关键的没说啊……

    2 回复
  • Liuzn 1 2 评论

    昨晚太累睡了,今天补充一下

    期待一下
    PiChou
    @PiChou 额,这就是补充之后的了
    Liuzn
  • Liuzn via macOS

    已经完善好了