思源未来能否实现基于已有笔记的 AI 问答 / 汇总筛选功能?

隔壁 Ob 数据格式是 md,我可以直接把整个库喂给本地大模型。一个类似的案例:素问 sooon.ai Q&A - 知乎

思源倒是也行,把笔记本导出成 md 喂给大模型即可。

但是我想象中的一些 Ob+ 大模型的可能的复杂用法就很难做了:

  1. 大模型只要做针对性优化,肯定还能识别出双链链接,毕竟 Ob 用户基数大,而且双链格式是显式的(思源的双链是基于 ID 的,大模型真的能认出来吗?),这种模型我相信以后肯定会有;进而识别出整个关系图。这样肯定有利于大模型的准确率。

  2. 针对某个专题,大模型可以直接帮我生成一份双链目录。

    1. 举个例子,比如我在 Ob 里记录了很多很多思源笔记的使用经验技巧,这种东西我不可能一开始就好好整理出一份目录的(整理这种目录很累很花时间而且收益很小);但是未来如果我要把我的笔记公开,或者去教别人、分享给别人的话,那就肯定需要有一个目录。如果是 Ob,显然大模型肯定有能力帮我写一个目录(每个双链还能附带简要说明),只要浏览[[思源笔记]]的反链即可,这样就省去我自己写的功夫了,还是那句话,自己写实在是花时间,而且收益很小。
  3. 总有一些内容是忘了加上相关双链、标签的,别名也无济于事。尤其是零碎内容,还有随着事态发展才意识到过去的 XX 的重要性的内容。

    1. 例如,生活日记,记了 20 年后我告诉 AI,“给我找出我笔记中所有和姐夫 XXX 相关的内容,他外号有 a,b,c,在 YY 公司、ZZ 公司干过,后来开了一家 BB 店”。显然这靠双链不能解决问题,只能求助于人工智能。比如这种日记“今天家庭聚会,大姐一家、大哥一家、姑姑姑父除了四姑一家外全都来了,……”,任何写笔记的人都不可能把所有参与者的名称全写一遍以便以后检索筛选。
    2. 再比如看剧,假设看《海贼王》《火影忍者》《三国演义》,我不可能每次写想法的时候都把人名全写一遍,也总有某些角色在看到后面的时候才喜欢上从而想快速查看之前写的相关内容,记录的笔记里写法可能是千奇百怪,角色本名中文日文罗马音片假名,外号简称一大堆,或者只提到演员/声优,从网上复制粘贴的内容的写法有更多花样,只要这个大模型已经基于网上搜集的数据集获取了这些基础知识,就能在筛选时帮我找出来我笔记中的相关内容。
    3. 例如,我现在需要让笔记软件展示出,我记录过的,看过的剧中,所有我有非常正面评价的反派角色,来做一个反派角色塑造分析的汇总。没有任何非影视专业的人在做观影笔记的时候会把「非常积极」「反派」这些关键词全都提前写上去的,这种需求只能靠 AI 分析笔记语义来汇总,AI 自己来判断我对某个角色的形容词是不是「非常积极」,根据网络上的相关知识来判断这个角色是否属于「反派」。

我想这些已经足够说明 AI 确实很有用。

(注:上述用处主要是在专业知识以外的领域。毕竟,专业知识本就应该需要投入大量时间去学习和梳理;而这以外的知识如果也要认真梳理代价太大,很不划算,这些知识不配,就算配,一般人也没有那个时间和能力去梳理。举个例子,网上有很多很多人情世故的好文章,这不是专业知识,不过大家都需要学,那你们会把这些知识点全部有条理地整理出来吗,也就是像课本那样的目录,第一章基础认识,第二章 XXXX,并且还配上简单说明?绝对不会,即使你想整理都整理不出来,绝大部分人根本没有利用剩余时间自创出一个完善大纲的能力,反正我是不行,每一个知识点都要考虑放到目录的什么地方,很痛苦,想不出来。)

当然现在的大模型还没这么厉害,但我相信以后一定会有,就像 Notion 的 AI,我看网上说,就可以根据自己写过的所有内容生成总结。


思源的数据格式是 json,所以要实现上述功能,我感觉就只能是把大模型加入到软件里(Ob 在这方面就无所谓,可以外部实现,这是一个类似实现:reorproject/reor: Self-organizing AI note-taking app that runs models locally.)。但是我还是想象不出来,大模型加到软件里是个什么场景,所以才有了标题的这个疑问:未来思源能实现这种功能吗?


即使实现了这个功能,我还有一个进一步的想法。

我知道有些人是习惯把网上看到的好内容剪藏到思源里,但我不是这么干的,我是用 singlefile 插件保存网页,在笔记软件里粘贴网页链接,然后简单写一下自己的想法。原因很简单,第一,这不是我自己写的内容,我的习惯是不把不是自己写的内容囫囵个儿地放到笔记里;第二,总有些网页剪藏的话会乱掉/不适合阅读,所以最终总会有内容不可能放到思源里;第三,就算网页内容整个儿保存进思源,那 PDF 呢,总不能复制粘贴进去啊。

如果用 Ob 的话,因为 Ob 使用 md,所以我可以把 md 文件和我保存的 HTML 网页、PDF 等资源一起喂给大模型。

进一步,做个畅想,比如有一个类似 ChatGPT 的大模型,已经基于网上的知识训练了,然后我把我本地的内容一起喂给它,这样我问他什么他都能基于网上的内容和本地的内容两方面来帮我筛选信息。我觉得这是很好的。

举一个例子:我保存了很多讲《三国演义》的拍摄花絮、演员导演采访的网页,但我不可能把这些网页全部变成笔记放到笔记软件里打上双链/双链,因为花絮太太太太太丰富了,我没那个时间。另外,笔记软件里也记录了一些笔记,很多是看视频的时候记录的。有一天我需要从我的资料库中调阅所有某角色的拍摄花絮,那么此时就需要大模型同时读取笔记里的内容还有保存的网页内容。

但是思源的话就不行,因为如之前所说,思源的大模型得加到软件里,根本不可能连网页、PDF 内容一并读取。即使假设思源不仅能把文本、关系图结构喂给大模型,还能把资源文件也喂给大模型,也不可能实现;我不可能把这些外部资源全都丢到思源的附件文件夹里,一是思源会强制给附件改名但有些附件是不应该被改名的,二是并不是所有外部资源思源都会用到,三是有些外部资源有它自己该在的位置,而不是放到思源的附件文件夹(Ob 可以通过软链接来轻松链接磁盘上任何内容,但是思源就不行)。

所以就很纠结。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    19768 引用 • 75619 回帖 • 1 关注
2 操作
LoneFireBlossom 在 2024-05-03 15:59:12 更新了该帖
LoneFireBlossom 在 2024-05-03 04:40:46 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • Achuan-2 2 评论

    那祝愿你期待的那一天早日到来吧

    我很满意我现在笔记方法,暂时并不期待所谓未来的 ai 笔记软件,因为 ai 能提高效率,能快速收集相关信息,但不能代替思考,我一直认为笔记最宝贵的内容,就是自己的思考,不思考又何必花时间记笔记。

    打太多标签、维护一个庞大的标签系统,很多情况下没有太大意义,dailynote 笔记法不是说不要分类,不分类的话哈桑为什么要介绍面向主题的 MOC 呢?我习惯面向主题的收集资料,只要专注当下的主题就好了,不必在乎这个主题到底属于什么分类。这种方法并不麻烦,能把我想要的信息和笔记整合,不管是专业领域,还是兴趣爱好笔记我都是这样干的。

    3 操作
    Achuan-2 在 2024-05-04 00:33:24 更新了该回帖
    Achuan-2 在 2024-05-04 00:20:22 更新了该回帖
    Achuan-2 在 2024-05-04 00:17:12 更新了该回帖
    这不是哈桑写的……
    LoneFireBlossom
    @LoneFireBlossom 哦哦抱歉,这个内容看着很熟悉,记错了。我修改下内容
    Achuan-2
  • 其他回帖
  • LoneFireBlossom

    我担心的是思源实现不了,或者说用非文本格式的软件都实现不了。

    第一,在我的理解中,软件接口只能让其他程序读取和操作软件里的一部分数据,而「把笔记内容、关系图全部喂给大模型」这种操作我想不是接口能解决的,必须是把大模型深度整合到思源里才有可能实现。

    第二,退一步讲,假设这能实现,但实际中,

    只要思源体量没那么大,未来这些 AI 模型只能是思源这边请求接入,把大模型深度整合到软件里,让模型可以实时读取分析所有笔记数据,所有适配恐怕基本上得思源这边来完成,我感觉可能还很麻烦,每个大模型都得来适配。如果用通用格式,可以用户自行选择使用哪家大模型。

    而且还有付费问题,如果这种整合要花钱恐怕也没法负担得起。

  • 我的建议,

    你可以先试试用 kimi chat 或者通义千问等国产免费大模型,有能力去用用 gpt4,claude 模型,就知道目前 ai 的水平了

    这些大模型现在都可以免费上传多个文件,进行总结。

    你帖子里说的那些 obsidian 能做到,思源做不到,根据我对 gpt 的了解,应该都是能做到的,而且 gpt 完全是可以解析 json 数据的,gpt 训练时就是用的 json 数据(但思源的 json 会多很多无关信息耗费 token,一个解决方案是根据 sql 查询传入内容,sql 数据库的内容就是 Markdown 格式)。我不清楚你是否在 obsidian 实现了上述需求,对 gpt 的了解情况如何,但是感觉你用 gpt 并不是很多,上面你觉得不行的例子我都是觉得 gpt 可以做到的。

    不过目前 gpt 在知识管理方面,个人觉得有用但用处不大,还有待进步。

    我自己日常频繁付费使用 GPT4,觉得针对特定主题问问就好了,现在生成的内容已经很不错了。如果是通识性的知识,个人感觉没必要用个人笔记,ai 本身训练知识库就足够了(指的是 GPT4 和 claude,目前最先进的模型),你的笔记内容还不一定正确呢。但如果是专业领域、一篇最新的文献,用 ai 生成总结文本,我常常觉得 ai 没有生成我真正想要的内容,还是得自己读,自己写,ai 只能给个大概思路而已。

    notion ai 利用 ai 进行搜索,其实我也觉得这个用处不大。如果是要找到这个笔记,自己在思源笔记搜索打上关键词也能搜索到,在 notion 有点用是因为 notion 自身搜索能力差。如果想要根据过往的笔记生成一篇内容,就如前面所说,可以但没必要,不需要你的任何笔记内容,ai 自身就可以生成很好的内容了,只要 prompt 的罗列了你的所有要求,如果想要模仿你的文风,每次指定上传几篇自己写的文章就好了。

    目前笔记软件里的 ai,我感觉更像是一个玩具,一个噱头,方便那些不会申请 GPT 的人使用。真正要用,建议用最先进的大模型,自己上传最相关的文本,实现需求。

    目前使用 ai,我觉得 ai 目前最有用的方面是生成或改进代码(写代码变成拼装积木,也不需要像以前一样记录代码片段,根据 gpt 生成的代码拼装组成完整程序)、批量根据要求快速处理文本(不需要自己写正则、写代码来处理了)、快速了解一个名词概念(遇到一个名称我会倾向先问 gpt4 不满意再查维基百科)

    1 回复
    2 操作
    Achuan-2 在 2024-05-03 16:06:29 更新了该回帖
    Achuan-2 在 2024-05-03 15:37:54 更新了该回帖
  • 我的意思是非通识性的数据建议自己手动导出相关的数据,用最先进的模型进行分析,效果是最好的。举文献只是一个例子,因为我没有你那些方面的需求。因为文献也是输入数据让 ai 解析总结呀,连文献那么有逻辑的数据输入总结重点都做不好的话,又怎么能期待它对零散的数据可以总结的到位呢?

    根据我的理解,目前的模型用你导出的数据上传已经能满足你例子的要求了。可以用 kimi 试试。而使用嵌入模型实现的个人知识库,我个人觉得效果是没那么好的,容易丢信息,可以期待下未来的个人知识库模型。

    日常使用思源笔记,只要有意识将相关笔记进行归类,导出这些数据应该也不是很麻烦的事情,而不是期待未来 ai 来帮你把所有零散的数据找出来。我说的归类不是像书籍一样列条目,而是可以一股脑的全丢进一个主题笔记里,不管什么排版。就好像你说的三国演义花絮,影视评价。这也是渐进式笔记的核心,渐进积累,之后面向主题输出。

    而例子 3.1,我觉得用别名设置人的外号、他的公司归属、家庭归属,看提及面板就能很大程度符合需求了。有些东西,通过查询、程序就能实现的场景,我个人的习惯是优先用最准确的,ai 又不能保证不会漏,你查询语法写漏了补充上去就行。甚至可以先自己用 sql 查询宁可包含不相关的结果也尽量不要漏,获得的结果给 ai,进行总结、重新排版,这样的效果我觉得目前是最好的。思源要做 ai 助手,我想到的一个方案也就是通过 ai 生成 sql 查询语句获取内容后再进行分析

    我上述的回答确实都针对当下的 ai,因为我觉得当下很多场景当下就能做到,没必要畅想,只是需要自己折腾下。

    2 回复
    2 操作
    Achuan-2 在 2024-05-03 17:11:18 更新了该回帖
    Achuan-2 在 2024-05-03 17:05:58 更新了该回帖
  • 查看全部回帖

推荐标签 标签

  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 552 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 524 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    44 引用 • 25 回帖
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    332 引用 • 619 回帖
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 18 关注
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 31 关注
  • 安全

    安全永远都不是一个小问题。

    191 引用 • 813 回帖
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 124 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    131 引用 • 1114 回帖 • 140 关注
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 51 关注
  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 42 关注
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 1 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 14 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖 • 1 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    70 引用 • 533 回帖 • 729 关注
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 382 关注
  • 支付宝

    支付宝是全球领先的独立第三方支付平台,致力于为广大用户提供安全快速的电子支付/网上支付/安全支付/手机支付体验,及转账收款/水电煤缴费/信用卡还款/AA 收款等生活服务应用。

    29 引用 • 347 回帖 • 1 关注
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 643 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    89 引用 • 345 回帖
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    2 引用 • 14 回帖 • 1 关注
  • 生活

    生活是指人类生存过程中的各项活动的总和,范畴较广,一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。

    229 引用 • 1450 回帖
  • V2Ray
    1 引用 • 15 回帖
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    16 引用 • 7 回帖
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖 • 1 关注