登录注册

思源未来能否实现基于已有笔记的 AI 问答 / 汇总筛选功能？

本贴最后更新于 204 天前，其中的信息可能已经沧海桑田

隔壁 Ob 数据格式是 md，我可以直接把整个库喂给本地大模型。一个类似的案例：素问 sooon.ai Q&A - 知乎

思源倒是也行，把笔记本导出成 md 喂给大模型即可。

但是我想象中的一些 Ob+ 大模型的可能的复杂用法就很难做了：

大模型只要做针对性优化，肯定还能识别出双链链接，毕竟 Ob 用户基数大，而且双链格式是显式的（思源的双链是基于 ID 的，大模型真的能认出来吗？），这种模型我相信以后肯定会有；进而识别出整个关系图。这样肯定有利于大模型的准确率。
针对某个专题，大模型可以直接帮我生成一份双链目录。
1. 举个例子，比如我在 Ob 里记录了很多很多思源笔记的使用经验技巧，这种东西我不可能一开始就好好整理出一份目录的（整理这种目录很累很花时间而且收益很小）；但是未来如果我要把我的笔记公开，或者去教别人、分享给别人的话，那就肯定需要有一个目录。如果是 Ob，显然大模型肯定有能力帮我写一个目录（每个双链还能附带简要说明），只要浏览[[思源笔记]]的反链即可，这样就省去我自己写的功夫了，还是那句话，自己写实在是花时间，而且收益很小。
总有一些内容是忘了加上相关双链、标签的，别名也无济于事。尤其是零碎内容，还有随着事态发展才意识到过去的 XX 的重要性的内容。
1. 例如，生活日记，记了 20 年后我告诉 AI，“给我找出我笔记中所有和姐夫 XXX 相关的内容，他外号有 a，b，c，在 YY 公司、ZZ 公司干过，后来开了一家 BB 店”。显然这靠双链不能解决问题，只能求助于人工智能。比如这种日记“今天家庭聚会，大姐一家、大哥一家、姑姑姑父除了四姑一家外全都来了，……”，任何写笔记的人都不可能把所有参与者的名称全写一遍以便以后检索筛选。
2. 再比如看剧，假设看《海贼王》《火影忍者》《三国演义》，我不可能每次写想法的时候都把人名全写一遍，也总有某些角色在看到后面的时候才喜欢上从而想快速查看之前写的相关内容，记录的笔记里写法可能是千奇百怪，角色本名中文日文罗马音片假名，外号简称一大堆，或者只提到演员/声优，从网上复制粘贴的内容的写法有更多花样，只要这个大模型已经基于网上搜集的数据集获取了这些基础知识，就能在筛选时帮我找出来我笔记中的相关内容。
3. 例如，我现在需要让笔记软件展示出，我记录过的，看过的剧中，所有我有非常正面评价的反派角色，来做一个反派角色塑造分析的汇总。没有任何非影视专业的人在做观影笔记的时候会把「非常积极」「反派」这些关键词全都提前写上去的，这种需求只能靠 AI 分析笔记语义来汇总，AI 自己来判断我对某个角色的形容词是不是「非常积极」，根据网络上的相关知识来判断这个角色是否属于「反派」。

我想这些已经足够说明 AI 确实很有用。

（注：上述用处主要是在专业知识以外的领域。毕竟，专业知识本就应该需要投入大量时间去学习和梳理；而这以外的知识如果也要认真梳理代价太大，很不划算，这些知识不配，就算配，一般人也没有那个时间和能力去梳理。举个例子，网上有很多很多人情世故的好文章，这不是专业知识，不过大家都需要学，那你们会把这些知识点全部有条理地整理出来吗，也就是像课本那样的目录，第一章基础认识，第二章 XXXX，并且还配上简单说明？绝对不会，即使你想整理都整理不出来，绝大部分人根本没有利用剩余时间自创出一个完善大纲的能力，反正我是不行，每一个知识点都要考虑放到目录的什么地方，很痛苦，想不出来。）

当然现在的大模型还没这么厉害，但我相信以后一定会有，就像 Notion 的 AI，我看网上说，就可以根据自己写过的所有内容生成总结。

思源的数据格式是 json，所以要实现上述功能，我感觉就只能是把大模型加入到软件里（Ob 在这方面就无所谓，可以外部实现，这是一个类似实现：reorproject/reor: Self-organizing AI note-taking app that runs models locally.）。但是我还是想象不出来，大模型加到软件里是个什么场景，所以才有了标题的这个疑问：未来思源能实现这种功能吗？

即使实现了这个功能，我还有一个进一步的想法。

我知道有些人是习惯把网上看到的好内容剪藏到思源里，但我不是这么干的，我是用 singlefile 插件保存网页，在笔记软件里粘贴网页链接，然后简单写一下自己的想法。原因很简单，第一，这不是我自己写的内容，我的习惯是不把不是自己写的内容囫囵个儿地放到笔记里；第二，总有些网页剪藏的话会乱掉/不适合阅读，所以最终总会有内容不可能放到思源里；第三，就算网页内容整个儿保存进思源，那 PDF 呢，总不能复制粘贴进去啊。

如果用 Ob 的话，因为 Ob 使用 md，所以我可以把 md 文件和我保存的 HTML 网页、PDF 等资源一起喂给大模型。

进一步，做个畅想，比如有一个类似 ChatGPT 的大模型，已经基于网上的知识训练了，然后我把我本地的内容一起喂给它，这样我问他什么他都能基于网上的内容和本地的内容两方面来帮我筛选信息。我觉得这是很好的。

举一个例子：我保存了很多讲《三国演义》的拍摄花絮、演员导演采访的网页，但我不可能把这些网页全部变成笔记放到笔记软件里打上双链/双链，因为花絮太太太太太丰富了，我没那个时间。另外，笔记软件里也记录了一些笔记，很多是看视频的时候记录的。有一天我需要从我的资料库中调阅所有某角色的拍摄花絮，那么此时就需要大模型同时读取笔记里的内容还有保存的网页内容。

但是思源的话就不行，因为如之前所说，思源的大模型得加到软件里，根本不可能连网页、PDF 内容一并读取。即使假设思源不仅能把文本、关系图结构喂给大模型，还能把资源文件也喂给大模型，也不可能实现；我不可能把这些外部资源全都丢到思源的附件文件夹里，一是思源会强制给附件改名但有些附件是不应该被改名的，二是并不是所有外部资源思源都会用到，三是有些外部资源有它自己该在的位置，而不是放到思源的附件文件夹（Ob 可以通过软链接来轻松链接磁盘上任何内容，但是思源就不行）。

所以就很纠结。

思源笔记

思源笔记是一款隐私优先的个人知识管理系统，支持完全离线使用，同时也支持端到端加密同步。

融合块、大纲和双向链接，重构你的思维。
22378 引用 • 89573 回帖

2 操作

LoneFireBlossom 在 2024-05-03 15:59:12 更新了该帖

LoneFireBlossom 在 2024-05-03 04:40:46 更新了该帖

LoneFireBlossom 6 个月前

1 关注

2 操作

10 回帖

462 307 142 9 2 1

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

注册关于

请输入回帖内容 ...

Achuan-2 • 6 个月前
订阅者先知

我的建议，

你可以先试试用 kimi chat 或者通义千问等国产免费大模型，有能力去用用 gpt4，claude 模型，就知道目前 ai 的水平了

这些大模型现在都可以免费上传多个文件，进行总结。

你帖子里说的那些 obsidian 能做到，思源做不到，根据我对 gpt 的了解，应该都是能做到的，而且 gpt 完全是可以解析 json 数据的，gpt 训练时就是用的 json 数据（但思源的 json 会多很多无关信息耗费 token，一个解决方案是根据 sql 查询传入内容，sql 数据库的内容就是 Markdown 格式）。我不清楚你是否在 obsidian 实现了上述需求，对 gpt 的了解情况如何，但是感觉你用 gpt 并不是很多，上面你觉得不行的例子我都是觉得 gpt 可以做到的。

不过目前 gpt 在知识管理方面，个人觉得有用但用处不大，还有待进步。

我自己日常频繁付费使用 GPT4，觉得针对特定主题问问就好了，现在生成的内容已经很不错了。如果是通识性的知识，个人感觉没必要用个人笔记，ai 本身训练知识库就足够了（指的是 GPT4 和 claude，目前最先进的模型），你的笔记内容还不一定正确呢。但如果是专业领域、一篇最新的文献，用 ai 生成总结文本，我常常觉得 ai 没有生成我真正想要的内容，还是得自己读，自己写，ai 只能给个大概思路而已。

notion ai 利用 ai 进行搜索，其实我也觉得这个用处不大。如果是要找到这个笔记，自己在思源笔记搜索打上关键词也能搜索到，在 notion 有点用是因为 notion 自身搜索能力差。如果想要根据过往的笔记生成一篇内容，就如前面所说，可以但没必要，不需要你的任何笔记内容，ai 自身就可以生成很好的内容了，只要 prompt 的罗列了你的所有要求，如果想要模仿你的文风，每次指定上传几篇自己写的文章就好了。

目前笔记软件里的 ai，我感觉更像是一个玩具，一个噱头，方便那些不会申请 GPT 的人使用。真正要用，建议用最先进的大模型，自己上传最相关的文本，实现需求。

目前使用 ai，我觉得 ai 目前最有用的方面是生成或改进代码（写代码变成拼装积木，也不需要像以前一样记录代码片段，根据 gpt 生成的代码拼装组成完整程序）、批量根据要求快速处理文本（不需要自己写正则、写代码来处理了）、快速了解一个名词概念（遇到一个名称我会倾向先问 gpt4 不满意再查维基百科）

1 回复

2 操作
Achuan-2 在 2024-05-03 16:06:29 更新了该回帖

Achuan-2 在 2024-05-03 15:37:54 更新了该回帖
其他回帖
Achuan-2 • 6 个月前
订阅者先知

我的意思是非通识性的数据建议自己手动导出相关的数据，用最先进的模型进行分析，效果是最好的。举文献只是一个例子，因为我没有你那些方面的需求。因为文献也是输入数据让 ai 解析总结呀，连文献那么有逻辑的数据输入总结重点都做不好的话，又怎么能期待它对零散的数据可以总结的到位呢？

根据我的理解，目前的模型用你导出的数据上传已经能满足你例子的要求了。可以用 kimi 试试。而使用嵌入模型实现的个人知识库，我个人觉得效果是没那么好的，容易丢信息，可以期待下未来的个人知识库模型。

日常使用思源笔记，只要有意识将相关笔记进行归类，导出这些数据应该也不是很麻烦的事情，而不是期待未来 ai 来帮你把所有零散的数据找出来。我说的归类不是像书籍一样列条目，而是可以一股脑的全丢进一个主题笔记里，不管什么排版。就好像你说的三国演义花絮，影视评价。这也是渐进式笔记的核心，渐进积累，之后面向主题输出。

而例子 3.1，我觉得用别名设置人的外号、他的公司归属、家庭归属，看提及面板就能很大程度符合需求了。有些东西，通过查询、程序就能实现的场景，我个人的习惯是优先用最准确的，ai 又不能保证不会漏，你查询语法写漏了补充上去就行。甚至可以先自己用 sql 查询宁可包含不相关的结果也尽量不要漏，获得的结果给 ai，进行总结、重新排版，这样的效果我觉得目前是最好的。思源要做 ai 助手，我想到的一个方案也就是通过 ai 生成 sql 查询语句获取内容后再进行分析

我上述的回答确实都针对当下的 ai，因为我觉得当下很多场景当下就能做到，没必要畅想，只是需要自己折腾下。

2 回复

2 操作
Achuan-2 在 2024-05-03 17:11:18 更新了该回帖

Achuan-2 在 2024-05-03 17:05:58 更新了该回帖
LoneFireBlossom • 6 个月前
付费者作者

连文献那么有逻辑的数据输入总结重点都做不好的话，又怎么能期待它对零散的数据可以总结的到位呢？

我在 1 楼已经解释过了……

目前的模型用你导出的数据上传已经能满足你例子的要求了。

以例 3.1 为例，当我需要列出“二姑父家的表哥”的所有相关内容时，我认为现在的 AI 不可能在海量笔记里筛选出这条内容。退一步讲，肯定会有遗漏，这得期待 AI 大模型未来的改进。我相信未来 AI 会成为笔记中很重要的组成部分，在理想情况下，人类可以省去几乎所有前期分类整理的顾虑，把经历更加聚焦在「记录、输出」上，解除了分类整理的压力和焦虑。

我说的归类不是像书籍一样列条目，而是可以一股脑的全丢进一个主题笔记里，不管什么排版。

这是很难的。我现在感觉，在个人知识管理中，分类最终只能依靠 AI，不可能由人力来实现。

第一，

在实践过标签系统之后，我注意到很多介绍标签系统的文章都有意无意地忽略了一个问题：使用标签系统的前提是你有一个基础标签系统——也就是给什么内容应该打什么标签的一整套规范。
而事实上构建和维护这个系统是超出个人的力量范围的。
目前广泛使用标签系统的领域主要是论文、音乐、图库（可能还有不少我不了解的专业领域），这些领域的标签系统是由行业、企业或者用户圈子来维护的。
而我们想象中是「我可以为文件打上标签」，但实际上我们遇到的是「我要给所有文件都打上标签」。
我在网上保存下来一篇文章，如果我已经有一个标签系统，那我就要根据这个系统给文章打上标签，否则我之后可能找不到这篇文章；如果我还没有一个标签系统，那我还要花心力去想我应该给这篇文章打上什么标签，以便我以后找到它。如果你选择先不打，那么你就永远也不会给这文章打上标签了，整个标签系统就形同虚设。
这是个相当耗费心力的过程，也是我自己和大部分认识的人最终没能坚持下来的原因。
而如果我是下载一篇论文，论文平台早就给我打好一套标签了，我可以完全不管，也可以根据自己的需要加点我自己要用的标签。这是完全不同的感受。

第二，选择使用更宽泛的分类是个常见思路，我也这么干过，但是前期分类方便了后期要筛选小主题时就麻烦了。
suka • 6 个月前
付费者捐赠者

我觉得思源的那种.sy 的格式也能直接喂给 ai 的。。ai 又不是人，只能读懂 md，说不定处理思源这种结构化的内容更合适(当然，这是我瞎琢磨的，没有任何验证。
可以预见的优点是,由于思源的块都有唯一的 id，所以能让 ai 给你生成内容的时候，附上引用了哪些块的内容的超链接，类似于 siyuan://blocks//xxx 这种。
缺点么，消耗的 token 会比较多
查看全部回帖

LoneFireBlossom

回帖

帖子

积分

思源未来能否实现基于已有笔记的 AI 问答 / 汇总筛选功能？

相关帖子

恐龙也能懂的在 siyuan 上使用 ChatGPT 教程

docker 部署服务器版思源笔记后，使用 cloudreve 的 webdav 进行同步，手机上的思源笔记 app 可以正常同步，服务端无法同步

导入大量笔记后无法完成同步，建议自定义自动同步时间间隔

企业内部制作插件是否可以使用？

思源自带的剪藏插件剪藏个人博客时，代码块解析存在问题

引述块外观发生变化了

开启同步后，思源开启缓慢！提供个思路

欢迎来到这里！

近期热议

推荐标签标签

最新标签

思源未来能否实现基于已有笔记的 AI 问答 / 汇总筛选功能？

相关帖子

恐龙也能懂的在 siyuan 上使用 ChatGPT 教程

docker 部署服务器版思源笔记后，使用 cloudreve 的 webdav 进行同步，手机上的思源笔记 app 可以正常同步，服务端无法同步

导入大量笔记后无法完成同步，建议自定义自动同步时间间隔

企业内部制作插件是否可以使用？

思源自带的剪藏插件剪藏个人博客时，代码块解析存在问题

引述块外观发生变化了

开启同步后，思源开启缓慢！提供个思路

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签