思源未来能否实现基于已有笔记的 AI 问答 / 汇总筛选功能?

隔壁 Ob 数据格式是 md,我可以直接把整个库喂给本地大模型。一个类似的案例:素问 sooon.ai Q&A - 知乎

思源倒是也行,把笔记本导出成 md 喂给大模型即可。

但是我想象中的一些 Ob+ 大模型的可能的复杂用法就很难做了:

  1. 大模型只要做针对性优化,肯定还能识别出双链链接,毕竟 Ob 用户基数大,而且双链格式是显式的(思源的双链是基于 ID 的,大模型真的能认出来吗?),这种模型我相信以后肯定会有;进而识别出整个关系图。这样肯定有利于大模型的准确率。

  2. 针对某个专题,大模型可以直接帮我生成一份双链目录。

    1. 举个例子,比如我在 Ob 里记录了很多很多思源笔记的使用经验技巧,这种东西我不可能一开始就好好整理出一份目录的(整理这种目录很累很花时间而且收益很小);但是未来如果我要把我的笔记公开,或者去教别人、分享给别人的话,那就肯定需要有一个目录。如果是 Ob,显然大模型肯定有能力帮我写一个目录(每个双链还能附带简要说明),只要浏览[[思源笔记]]的反链即可,这样就省去我自己写的功夫了,还是那句话,自己写实在是花时间,而且收益很小。
  3. 总有一些内容是忘了加上相关双链、标签的,别名也无济于事。尤其是零碎内容,还有随着事态发展才意识到过去的 XX 的重要性的内容。

    1. 例如,生活日记,记了 20 年后我告诉 AI,“给我找出我笔记中所有和姐夫 XXX 相关的内容,他外号有 a,b,c,在 YY 公司、ZZ 公司干过,后来开了一家 BB 店”。显然这靠双链不能解决问题,只能求助于人工智能。比如这种日记“今天家庭聚会,大姐一家、大哥一家、姑姑姑父除了四姑一家外全都来了,……”,任何写笔记的人都不可能把所有参与者的名称全写一遍以便以后检索筛选。
    2. 再比如看剧,假设看《海贼王》《火影忍者》《三国演义》,我不可能每次写想法的时候都把人名全写一遍,也总有某些角色在看到后面的时候才喜欢上从而想快速查看之前写的相关内容,记录的笔记里写法可能是千奇百怪,角色本名中文日文罗马音片假名,外号简称一大堆,或者只提到演员/声优,从网上复制粘贴的内容的写法有更多花样,只要这个大模型已经基于网上搜集的数据集获取了这些基础知识,就能在筛选时帮我找出来我笔记中的相关内容。
    3. 例如,我现在需要让笔记软件展示出,我记录过的,看过的剧中,所有我有非常正面评价的反派角色,来做一个反派角色塑造分析的汇总。没有任何非影视专业的人在做观影笔记的时候会把「非常积极」「反派」这些关键词全都提前写上去的,这种需求只能靠 AI 分析笔记语义来汇总,AI 自己来判断我对某个角色的形容词是不是「非常积极」,根据网络上的相关知识来判断这个角色是否属于「反派」。

我想这些已经足够说明 AI 确实很有用。

(注:上述用处主要是在专业知识以外的领域。毕竟,专业知识本就应该需要投入大量时间去学习和梳理;而这以外的知识如果也要认真梳理代价太大,很不划算,这些知识不配,就算配,一般人也没有那个时间和能力去梳理。举个例子,网上有很多很多人情世故的好文章,这不是专业知识,不过大家都需要学,那你们会把这些知识点全部有条理地整理出来吗,也就是像课本那样的目录,第一章基础认识,第二章 XXXX,并且还配上简单说明?绝对不会,即使你想整理都整理不出来,绝大部分人根本没有利用剩余时间自创出一个完善大纲的能力,反正我是不行,每一个知识点都要考虑放到目录的什么地方,很痛苦,想不出来。)

当然现在的大模型还没这么厉害,但我相信以后一定会有,就像 Notion 的 AI,我看网上说,就可以根据自己写过的所有内容生成总结。


思源的数据格式是 json,所以要实现上述功能,我感觉就只能是把大模型加入到软件里(Ob 在这方面就无所谓,可以外部实现,这是一个类似实现:reorproject/reor: Self-organizing AI note-taking app that runs models locally.)。但是我还是想象不出来,大模型加到软件里是个什么场景,所以才有了标题的这个疑问:未来思源能实现这种功能吗?


即使实现了这个功能,我还有一个进一步的想法。

我知道有些人是习惯把网上看到的好内容剪藏到思源里,但我不是这么干的,我是用 singlefile 插件保存网页,在笔记软件里粘贴网页链接,然后简单写一下自己的想法。原因很简单,第一,这不是我自己写的内容,我的习惯是不把不是自己写的内容囫囵个儿地放到笔记里;第二,总有些网页剪藏的话会乱掉/不适合阅读,所以最终总会有内容不可能放到思源里;第三,就算网页内容整个儿保存进思源,那 PDF 呢,总不能复制粘贴进去啊。

如果用 Ob 的话,因为 Ob 使用 md,所以我可以把 md 文件和我保存的 HTML 网页、PDF 等资源一起喂给大模型。

进一步,做个畅想,比如有一个类似 ChatGPT 的大模型,已经基于网上的知识训练了,然后我把我本地的内容一起喂给它,这样我问他什么他都能基于网上的内容和本地的内容两方面来帮我筛选信息。我觉得这是很好的。

举一个例子:我保存了很多讲《三国演义》的拍摄花絮、演员导演采访的网页,但我不可能把这些网页全部变成笔记放到笔记软件里打上双链/双链,因为花絮太太太太太丰富了,我没那个时间。另外,笔记软件里也记录了一些笔记,很多是看视频的时候记录的。有一天我需要从我的资料库中调阅所有某角色的拍摄花絮,那么此时就需要大模型同时读取笔记里的内容还有保存的网页内容。

但是思源的话就不行,因为如之前所说,思源的大模型得加到软件里,根本不可能连网页、PDF 内容一并读取。即使假设思源不仅能把文本、关系图结构喂给大模型,还能把资源文件也喂给大模型,也不可能实现;我不可能把这些外部资源全都丢到思源的附件文件夹里,一是思源会强制给附件改名但有些附件是不应该被改名的,二是并不是所有外部资源思源都会用到,三是有些外部资源有它自己该在的位置,而不是放到思源的附件文件夹(Ob 可以通过软链接来轻松链接磁盘上任何内容,但是思源就不行)。

所以就很纠结。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    19139 引用 • 71956 回帖
2 操作
LoneFireBlossom 在 2024-05-03 15:59:12 更新了该帖
LoneFireBlossom 在 2024-05-03 04:40:46 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • ennea

    我的理解,ai 很重要,不过现在笔记软件的 ai 还没实现到那个程度,所以思源倒也不用着急。不过提前谋划还是重要的。按道理思源也应该可以提供接口给 ai,直接链接到外部文件应该也可以实现。

    想你提到的 Obsidian 的优势,这就是使用通用格式的好处,鱼与熊掌不可兼得。

    1 回复
  • 其他回帖
  • 我的意思是非通识性的数据建议自己手动导出相关的数据,用最先进的模型进行分析,效果是最好的。举文献只是一个例子,因为我没有你那些方面的需求。因为文献也是输入数据让 ai 解析总结呀,连文献那么有逻辑的数据输入总结重点都做不好的话,又怎么能期待它对零散的数据可以总结的到位呢?

    根据我的理解,目前的模型用你导出的数据上传已经能满足你例子的要求了。可以用 kimi 试试。而使用嵌入模型实现的个人知识库,我个人觉得效果是没那么好的,容易丢信息,可以期待下未来的个人知识库模型。

    日常使用思源笔记,只要有意识将相关笔记进行归类,导出这些数据应该也不是很麻烦的事情,而不是期待未来 ai 来帮你把所有零散的数据找出来。我说的归类不是像书籍一样列条目,而是可以一股脑的全丢进一个主题笔记里,不管什么排版。就好像你说的三国演义花絮,影视评价。这也是渐进式笔记的核心,渐进积累,之后面向主题输出。

    而例子 3.1,我觉得用别名设置人的外号、他的公司归属、家庭归属,看提及面板就能很大程度符合需求了。有些东西,通过查询、程序就能实现的场景,我个人的习惯是优先用最准确的,ai 又不能保证不会漏,你查询语法写漏了补充上去就行。甚至可以先自己用 sql 查询宁可包含不相关的结果也尽量不要漏,获得的结果给 ai,进行总结、重新排版,这样的效果我觉得目前是最好的。思源要做 ai 助手,我想到的一个方案也就是通过 ai 生成 sql 查询语句获取内容后再进行分析

    我上述的回答确实都针对当下的 ai,因为我觉得当下很多场景当下就能做到,没必要畅想,只是需要自己折腾下。

    2 回复
    2 操作
    Achuan-2 在 2024-05-03 17:11:18 更新了该回帖
    Achuan-2 在 2024-05-03 17:05:58 更新了该回帖
  • soltus

    现在是可以但没必要,等几年成熟了加上本地硬件升级

  • LoneFireBlossom

    我担心的是思源实现不了,或者说用非文本格式的软件都实现不了。

    第一,在我的理解中,软件接口只能让其他程序读取和操作软件里的一部分数据,而「把笔记内容、关系图全部喂给大模型」这种操作我想不是接口能解决的,必须是把大模型深度整合到思源里才有可能实现。

    第二,退一步讲,假设这能实现,但实际中,

    只要思源体量没那么大,未来这些 AI 模型只能是思源这边请求接入,把大模型深度整合到软件里,让模型可以实时读取分析所有笔记数据,所有适配恐怕基本上得思源这边来完成,我感觉可能还很麻烦,每个大模型都得来适配。如果用通用格式,可以用户自行选择使用哪家大模型。

    而且还有付费问题,如果这种整合要花钱恐怕也没法负担得起。

  • 查看全部回帖

推荐标签 标签

  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 641 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 32 关注
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    116 引用 • 99 回帖 • 270 关注
  • abitmean

    有点意思就行了

    24 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    70 引用 • 532 回帖 • 719 关注
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    85 引用 • 895 回帖
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 292 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 2 关注
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    69 引用 • 190 回帖 • 486 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    284 引用 • 247 回帖 • 164 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    189 引用 • 1056 回帖 • 1 关注
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 232 回帖 • 10 关注
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 355 关注
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 182 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖 • 1 关注
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖 • 1 关注
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    19 引用 • 23 回帖 • 693 关注
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 594 关注
  • 996
    13 引用 • 200 回帖
  • Eclipse

    Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。

    75 引用 • 258 回帖 • 629 关注
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 28 关注
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 414 关注
  • Sandbox

    如果帖子标签含有 Sandbox ,则该帖子会被视为“测试帖”,主要用于测试社区功能,排查 bug 等,该标签下内容不定期进行清理。

    375 引用 • 1217 回帖 • 579 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 2 关注
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖 • 2 关注