思源未来能否实现基于已有笔记的 AI 问答 / 汇总筛选功能?

本贴最后更新于 403 天前,其中的信息可能已经沧海桑田

隔壁 Ob 数据格式是 md,我可以直接把整个库喂给本地大模型。一个类似的案例:素问 sooon.ai Q&A - 知乎

思源倒是也行,把笔记本导出成 md 喂给大模型即可。

但是我想象中的一些 Ob+ 大模型的可能的复杂用法就很难做了:

  1. 大模型只要做针对性优化,肯定还能识别出双链链接,毕竟 Ob 用户基数大,而且双链格式是显式的(思源的双链是基于 ID 的,大模型真的能认出来吗?),这种模型我相信以后肯定会有;进而识别出整个关系图。这样肯定有利于大模型的准确率。

  2. 针对某个专题,大模型可以直接帮我生成一份双链目录。

    1. 举个例子,比如我在 Ob 里记录了很多很多思源笔记的使用经验技巧,这种东西我不可能一开始就好好整理出一份目录的(整理这种目录很累很花时间而且收益很小);但是未来如果我要把我的笔记公开,或者去教别人、分享给别人的话,那就肯定需要有一个目录。如果是 Ob,显然大模型肯定有能力帮我写一个目录(每个双链还能附带简要说明),只要浏览[[思源笔记]]的反链即可,这样就省去我自己写的功夫了,还是那句话,自己写实在是花时间,而且收益很小。
  3. 总有一些内容是忘了加上相关双链、标签的,别名也无济于事。尤其是零碎内容,还有随着事态发展才意识到过去的 XX 的重要性的内容。

    1. 例如,生活日记,记了 20 年后我告诉 AI,“给我找出我笔记中所有和姐夫 XXX 相关的内容,他外号有 a,b,c,在 YY 公司、ZZ 公司干过,后来开了一家 BB 店”。显然这靠双链不能解决问题,只能求助于人工智能。比如这种日记“今天家庭聚会,大姐一家、大哥一家、姑姑姑父除了四姑一家外全都来了,……”,任何写笔记的人都不可能把所有参与者的名称全写一遍以便以后检索筛选。
    2. 再比如看剧,假设看《海贼王》《火影忍者》《三国演义》,我不可能每次写想法的时候都把人名全写一遍,也总有某些角色在看到后面的时候才喜欢上从而想快速查看之前写的相关内容,记录的笔记里写法可能是千奇百怪,角色本名中文日文罗马音片假名,外号简称一大堆,或者只提到演员/声优,从网上复制粘贴的内容的写法有更多花样,只要这个大模型已经基于网上搜集的数据集获取了这些基础知识,就能在筛选时帮我找出来我笔记中的相关内容。
    3. 例如,我现在需要让笔记软件展示出,我记录过的,看过的剧中,所有我有非常正面评价的反派角色,来做一个反派角色塑造分析的汇总。没有任何非影视专业的人在做观影笔记的时候会把「非常积极」「反派」这些关键词全都提前写上去的,这种需求只能靠 AI 分析笔记语义来汇总,AI 自己来判断我对某个角色的形容词是不是「非常积极」,根据网络上的相关知识来判断这个角色是否属于「反派」。

我想这些已经足够说明 AI 确实很有用。

(注:上述用处主要是在专业知识以外的领域。毕竟,专业知识本就应该需要投入大量时间去学习和梳理;而这以外的知识如果也要认真梳理代价太大,很不划算,这些知识不配,就算配,一般人也没有那个时间和能力去梳理。举个例子,网上有很多很多人情世故的好文章,这不是专业知识,不过大家都需要学,那你们会把这些知识点全部有条理地整理出来吗,也就是像课本那样的目录,第一章基础认识,第二章 XXXX,并且还配上简单说明?绝对不会,即使你想整理都整理不出来,绝大部分人根本没有利用剩余时间自创出一个完善大纲的能力,反正我是不行,每一个知识点都要考虑放到目录的什么地方,很痛苦,想不出来。)

当然现在的大模型还没这么厉害,但我相信以后一定会有,就像 Notion 的 AI,我看网上说,就可以根据自己写过的所有内容生成总结。


思源的数据格式是 json,所以要实现上述功能,我感觉就只能是把大模型加入到软件里(Ob 在这方面就无所谓,可以外部实现,这是一个类似实现:reorproject/reor: Self-organizing AI note-taking app that runs models locally.)。但是我还是想象不出来,大模型加到软件里是个什么场景,所以才有了标题的这个疑问:未来思源能实现这种功能吗?


即使实现了这个功能,我还有一个进一步的想法。

我知道有些人是习惯把网上看到的好内容剪藏到思源里,但我不是这么干的,我是用 singlefile 插件保存网页,在笔记软件里粘贴网页链接,然后简单写一下自己的想法。原因很简单,第一,这不是我自己写的内容,我的习惯是不把不是自己写的内容囫囵个儿地放到笔记里;第二,总有些网页剪藏的话会乱掉/不适合阅读,所以最终总会有内容不可能放到思源里;第三,就算网页内容整个儿保存进思源,那 PDF 呢,总不能复制粘贴进去啊。

如果用 Ob 的话,因为 Ob 使用 md,所以我可以把 md 文件和我保存的 HTML 网页、PDF 等资源一起喂给大模型。

进一步,做个畅想,比如有一个类似 ChatGPT 的大模型,已经基于网上的知识训练了,然后我把我本地的内容一起喂给它,这样我问他什么他都能基于网上的内容和本地的内容两方面来帮我筛选信息。我觉得这是很好的。

举一个例子:我保存了很多讲《三国演义》的拍摄花絮、演员导演采访的网页,但我不可能把这些网页全部变成笔记放到笔记软件里打上双链/双链,因为花絮太太太太太丰富了,我没那个时间。另外,笔记软件里也记录了一些笔记,很多是看视频的时候记录的。有一天我需要从我的资料库中调阅所有某角色的拍摄花絮,那么此时就需要大模型同时读取笔记里的内容还有保存的网页内容。

但是思源的话就不行,因为如之前所说,思源的大模型得加到软件里,根本不可能连网页、PDF 内容一并读取。即使假设思源不仅能把文本、关系图结构喂给大模型,还能把资源文件也喂给大模型,也不可能实现;我不可能把这些外部资源全都丢到思源的附件文件夹里,一是思源会强制给附件改名但有些附件是不应该被改名的,二是并不是所有外部资源思源都会用到,三是有些外部资源有它自己该在的位置,而不是放到思源的附件文件夹(Ob 可以通过软链接来轻松链接磁盘上任何内容,但是思源就不行)。

所以就很纠结。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25893 引用 • 107282 回帖
2 操作
LoneFireBlossom 在 2024-05-03 15:59:12 更新了该帖
LoneFireBlossom 在 2024-05-03 04:40:46 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • soltus

    现在是可以但没必要,等几年成熟了加上本地硬件升级

  • 其他回帖
  • 我觉得思源的那种.sy 的格式也能直接喂给 ai 的。。ai 又不是人,只能读懂 md,说不定处理思源这种结构化的内容更合适(当然,这是我瞎琢磨的,没有任何验证。
    可以预见的优点是,由于思源的块都有唯一的 id,所以能让 ai 给你生成内容的时候,附上引用了哪些块的内容的超链接,类似于 siyuan://blocks//xxx 这种。
    缺点么,消耗的 token 会比较多

  • Achuan-2 via Android

    我的建议,

    你可以先试试用 kimi chat 或者通义千问等国产免费大模型,有能力去用用 gpt4,claude 模型,就知道目前 ai 的水平了

    这些大模型现在都可以免费上传多个文件,进行总结。

    你帖子里说的那些 obsidian 能做到,思源做不到,根据我对 gpt 的了解,应该都是能做到的,而且 gpt 完全是可以解析 json 数据的,gpt 训练时就是用的 json 数据(但思源的 json 会多很多无关信息耗费 token,一个解决方案是根据 sql 查询传入内容,sql 数据库的内容就是 Markdown 格式)。我不清楚你是否在 obsidian 实现了上述需求,对 gpt 的了解情况如何,但是感觉你用 gpt 并不是很多,上面你觉得不行的例子我都是觉得 gpt 可以做到的。

    不过目前 gpt 在知识管理方面,个人觉得有用但用处不大,还有待进步。

    我自己日常频繁付费使用 GPT4,觉得针对特定主题问问就好了,现在生成的内容已经很不错了。如果是通识性的知识,个人感觉没必要用个人笔记,ai 本身训练知识库就足够了(指的是 GPT4 和 claude,目前最先进的模型),你的笔记内容还不一定正确呢。但如果是专业领域、一篇最新的文献,用 ai 生成总结文本,我常常觉得 ai 没有生成我真正想要的内容,还是得自己读,自己写,ai 只能给个大概思路而已。

    notion ai 利用 ai 进行搜索,其实我也觉得这个用处不大。如果是要找到这个笔记,自己在思源笔记搜索打上关键词也能搜索到,在 notion 有点用是因为 notion 自身搜索能力差。如果想要根据过往的笔记生成一篇内容,就如前面所说,可以但没必要,不需要你的任何笔记内容,ai 自身就可以生成很好的内容了,只要 prompt 的罗列了你的所有要求,如果想要模仿你的文风,每次指定上传几篇自己写的文章就好了。

    目前笔记软件里的 ai,我感觉更像是一个玩具,一个噱头,方便那些不会申请 GPT 的人使用。真正要用,建议用最先进的大模型,自己上传最相关的文本,实现需求。

    目前使用 ai,我觉得 ai 目前最有用的方面是生成或改进代码(写代码变成拼装积木,也不需要像以前一样记录代码片段,根据 gpt 生成的代码拼装组成完整程序)、批量根据要求快速处理文本(不需要自己写正则、写代码来处理了)、快速了解一个名词概念(遇到一个名称我会倾向先问 gpt4 不满意再查维基百科)

    1 回复
    2 操作
    Achuan-2 在 2024-05-03 16:06:29 更新了该回帖
    Achuan-2 在 2024-05-03 15:37:54 更新了该回帖
  • Achuan-2 2 评论

    那祝愿你期待的那一天早日到来吧

    我很满意我现在笔记方法,暂时并不期待所谓未来的 ai 笔记软件,因为 ai 能提高效率,能快速收集相关信息,但不能代替思考,我一直认为笔记最宝贵的内容,就是自己的思考,不思考又何必花时间记笔记。

    打太多标签、维护一个庞大的标签系统,很多情况下没有太大意义,dailynote 笔记法不是说不要分类,不分类的话哈桑为什么要介绍面向主题的 MOC 呢?我习惯面向主题的收集资料,只要专注当下的主题就好了,不必在乎这个主题到底属于什么分类。这种方法并不麻烦,能把我想要的信息和笔记整合,不管是专业领域,还是兴趣爱好笔记我都是这样干的。

    3 操作
    Achuan-2 在 2024-05-04 00:33:24 更新了该回帖
    Achuan-2 在 2024-05-04 00:20:22 更新了该回帖
    Achuan-2 在 2024-05-04 00:17:12 更新了该回帖
    这不是哈桑写的……
    LoneFireBlossom
    @LoneFireBlossom 哦哦抱歉,这个内容看着很熟悉,记错了。我修改下内容
    Achuan-2
  • 查看全部回帖

推荐标签 标签

  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    89 引用 • 1251 回帖 • 397 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    37 引用 • 157 回帖 • 2 关注
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 675 关注
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖 • 2 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    499 引用 • 1395 回帖 • 245 关注
  • Anytype
    3 引用 • 31 回帖 • 25 关注
  • 浅吟主题

    Jeffrey Chen 制作的思源笔记主题,项目仓库:https://github.com/TCOTC/Whisper

    1 引用 • 28 回帖
  • V2Ray
    1 引用 • 15 回帖 • 1 关注
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    19 引用 • 23 回帖 • 738 关注
  • Typecho

    Typecho 是一款博客程序,它在 GPLv2 许可证下发行,基于 PHP 构建,可以运行在各种平台上,支持多种数据库(MySQL、PostgreSQL、SQLite)。

    12 引用 • 67 回帖 • 445 关注
  • 反馈

    Communication channel for makers and users.

    120 引用 • 906 回帖 • 279 关注
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 818 回帖 • 1 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 676 关注
  • IPFS

    IPFS(InterPlanetary File System,星际文件系统)是永久的、去中心化保存和共享文件的方法,这是一种内容可寻址、版本化、点对点超媒体的分布式协议。请浏览 IPFS 入门笔记了解更多细节。

    20 引用 • 245 回帖 • 227 关注
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 5 关注
  • Outlook
    1 引用 • 5 回帖 • 5 关注
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 32 关注
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    9945 引用 • 45161 回帖 • 76 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    6 引用 • 26 回帖 • 544 关注
  • OneDrive
    2 引用 • 3 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    42 引用 • 130 回帖 • 250 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 185 关注
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 112 关注