思源未来能否实现基于已有笔记的 AI 问答 / 汇总筛选功能?

本贴最后更新于 202 天前,其中的信息可能已经沧海桑田

隔壁 Ob 数据格式是 md,我可以直接把整个库喂给本地大模型。一个类似的案例:素问 sooon.ai Q&A - 知乎

思源倒是也行,把笔记本导出成 md 喂给大模型即可。

但是我想象中的一些 Ob+ 大模型的可能的复杂用法就很难做了:

  1. 大模型只要做针对性优化,肯定还能识别出双链链接,毕竟 Ob 用户基数大,而且双链格式是显式的(思源的双链是基于 ID 的,大模型真的能认出来吗?),这种模型我相信以后肯定会有;进而识别出整个关系图。这样肯定有利于大模型的准确率。

  2. 针对某个专题,大模型可以直接帮我生成一份双链目录。

    1. 举个例子,比如我在 Ob 里记录了很多很多思源笔记的使用经验技巧,这种东西我不可能一开始就好好整理出一份目录的(整理这种目录很累很花时间而且收益很小);但是未来如果我要把我的笔记公开,或者去教别人、分享给别人的话,那就肯定需要有一个目录。如果是 Ob,显然大模型肯定有能力帮我写一个目录(每个双链还能附带简要说明),只要浏览[[思源笔记]]的反链即可,这样就省去我自己写的功夫了,还是那句话,自己写实在是花时间,而且收益很小。
  3. 总有一些内容是忘了加上相关双链、标签的,别名也无济于事。尤其是零碎内容,还有随着事态发展才意识到过去的 XX 的重要性的内容。

    1. 例如,生活日记,记了 20 年后我告诉 AI,“给我找出我笔记中所有和姐夫 XXX 相关的内容,他外号有 a,b,c,在 YY 公司、ZZ 公司干过,后来开了一家 BB 店”。显然这靠双链不能解决问题,只能求助于人工智能。比如这种日记“今天家庭聚会,大姐一家、大哥一家、姑姑姑父除了四姑一家外全都来了,……”,任何写笔记的人都不可能把所有参与者的名称全写一遍以便以后检索筛选。
    2. 再比如看剧,假设看《海贼王》《火影忍者》《三国演义》,我不可能每次写想法的时候都把人名全写一遍,也总有某些角色在看到后面的时候才喜欢上从而想快速查看之前写的相关内容,记录的笔记里写法可能是千奇百怪,角色本名中文日文罗马音片假名,外号简称一大堆,或者只提到演员/声优,从网上复制粘贴的内容的写法有更多花样,只要这个大模型已经基于网上搜集的数据集获取了这些基础知识,就能在筛选时帮我找出来我笔记中的相关内容。
    3. 例如,我现在需要让笔记软件展示出,我记录过的,看过的剧中,所有我有非常正面评价的反派角色,来做一个反派角色塑造分析的汇总。没有任何非影视专业的人在做观影笔记的时候会把「非常积极」「反派」这些关键词全都提前写上去的,这种需求只能靠 AI 分析笔记语义来汇总,AI 自己来判断我对某个角色的形容词是不是「非常积极」,根据网络上的相关知识来判断这个角色是否属于「反派」。

我想这些已经足够说明 AI 确实很有用。

(注:上述用处主要是在专业知识以外的领域。毕竟,专业知识本就应该需要投入大量时间去学习和梳理;而这以外的知识如果也要认真梳理代价太大,很不划算,这些知识不配,就算配,一般人也没有那个时间和能力去梳理。举个例子,网上有很多很多人情世故的好文章,这不是专业知识,不过大家都需要学,那你们会把这些知识点全部有条理地整理出来吗,也就是像课本那样的目录,第一章基础认识,第二章 XXXX,并且还配上简单说明?绝对不会,即使你想整理都整理不出来,绝大部分人根本没有利用剩余时间自创出一个完善大纲的能力,反正我是不行,每一个知识点都要考虑放到目录的什么地方,很痛苦,想不出来。)

当然现在的大模型还没这么厉害,但我相信以后一定会有,就像 Notion 的 AI,我看网上说,就可以根据自己写过的所有内容生成总结。


思源的数据格式是 json,所以要实现上述功能,我感觉就只能是把大模型加入到软件里(Ob 在这方面就无所谓,可以外部实现,这是一个类似实现:reorproject/reor: Self-organizing AI note-taking app that runs models locally.)。但是我还是想象不出来,大模型加到软件里是个什么场景,所以才有了标题的这个疑问:未来思源能实现这种功能吗?


即使实现了这个功能,我还有一个进一步的想法。

我知道有些人是习惯把网上看到的好内容剪藏到思源里,但我不是这么干的,我是用 singlefile 插件保存网页,在笔记软件里粘贴网页链接,然后简单写一下自己的想法。原因很简单,第一,这不是我自己写的内容,我的习惯是不把不是自己写的内容囫囵个儿地放到笔记里;第二,总有些网页剪藏的话会乱掉/不适合阅读,所以最终总会有内容不可能放到思源里;第三,就算网页内容整个儿保存进思源,那 PDF 呢,总不能复制粘贴进去啊。

如果用 Ob 的话,因为 Ob 使用 md,所以我可以把 md 文件和我保存的 HTML 网页、PDF 等资源一起喂给大模型。

进一步,做个畅想,比如有一个类似 ChatGPT 的大模型,已经基于网上的知识训练了,然后我把我本地的内容一起喂给它,这样我问他什么他都能基于网上的内容和本地的内容两方面来帮我筛选信息。我觉得这是很好的。

举一个例子:我保存了很多讲《三国演义》的拍摄花絮、演员导演采访的网页,但我不可能把这些网页全部变成笔记放到笔记软件里打上双链/双链,因为花絮太太太太太丰富了,我没那个时间。另外,笔记软件里也记录了一些笔记,很多是看视频的时候记录的。有一天我需要从我的资料库中调阅所有某角色的拍摄花絮,那么此时就需要大模型同时读取笔记里的内容还有保存的网页内容。

但是思源的话就不行,因为如之前所说,思源的大模型得加到软件里,根本不可能连网页、PDF 内容一并读取。即使假设思源不仅能把文本、关系图结构喂给大模型,还能把资源文件也喂给大模型,也不可能实现;我不可能把这些外部资源全都丢到思源的附件文件夹里,一是思源会强制给附件改名但有些附件是不应该被改名的,二是并不是所有外部资源思源都会用到,三是有些外部资源有它自己该在的位置,而不是放到思源的附件文件夹(Ob 可以通过软链接来轻松链接磁盘上任何内容,但是思源就不行)。

所以就很纠结。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    22340 引用 • 89396 回帖 • 1 关注
2 操作
LoneFireBlossom 在 2024-05-03 15:59:12 更新了该帖
LoneFireBlossom 在 2024-05-03 04:40:46 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 现在是可以但没必要,等几年成熟了加上本地硬件升级

  • 其他回帖
  • LoneFireBlossom

    我担心的是思源实现不了,或者说用非文本格式的软件都实现不了。

    第一,在我的理解中,软件接口只能让其他程序读取和操作软件里的一部分数据,而「把笔记内容、关系图全部喂给大模型」这种操作我想不是接口能解决的,必须是把大模型深度整合到思源里才有可能实现。

    第二,退一步讲,假设这能实现,但实际中,

    只要思源体量没那么大,未来这些 AI 模型只能是思源这边请求接入,把大模型深度整合到软件里,让模型可以实时读取分析所有笔记数据,所有适配恐怕基本上得思源这边来完成,我感觉可能还很麻烦,每个大模型都得来适配。如果用通用格式,可以用户自行选择使用哪家大模型。

    而且还有付费问题,如果这种整合要花钱恐怕也没法负担得起。

  • LoneFireBlossom

    本帖当然不是在说现在的 AI,而是说未来的 AI 大模型啊……

    未来 AI 在筛选总结方面肯定大有用处,这种用处是靠提前写关键词不可能做到的。我 1 楼已经举了例子了。

    你举的一些例子,专业领域读文献,我 1 楼说了我只关注了 AI 在非专业领域的作用;用 AI 生成文本,额,这和我说的用处没关系啊……我不关心这个啊……

    可以但没必要,不需要你的任何笔记内容,ai 自身就可以生成很好的内容了,

    我一楼举的例子,比如例 3.1,例 3.3,这只能是基于我自身的笔记内容才能生成总结啊。

    再举一个,算了,我把新写的例子更新在 1 楼好了。

    1 回复
    2 操作
    LoneFireBlossom 在 2024-05-03 16:01:33 更新了该回帖
    LoneFireBlossom 在 2024-05-03 15:58:37 更新了该回帖
  • LoneFireBlossom

    我上述的回答确实都针对当下的 ai,因为我觉得当下很多场景当下就能做到,没必要畅想,只是需要自己折腾下。

    我认为有必要思考软件未来的发展潜力。也即,需要在「当前笔记记得舒服」和「笔记软件对下一代架构的适应能力」上找一个自己觉得可以的平衡点。

    首先,我认为当前的任何一款笔记软件是终极软件形态吗?未来会不会有下一代笔记软件?我认为会,而且目前看来,下一代就是在本代软件的基础上,结合了高度发达的 AI 大模型的笔记软件,而且这个下一代软件一定会成为彻底主流。至少我到时候一定会选择使用。

    其次,这个下一代笔记软件会有多久才能到来?我认为可能还需要几年到二十几年,不会更久了。

    最后,如果要做终身学习者,持续记录笔记,在上述前提下,就必须要考虑笔记的兼容性和可迁移性:要么是当前的笔记软件可以直接升级成下一代笔记软件形态,要么是当前的笔记可以以很低的成本、极小的信息损失迁移到下一代笔记软件。

    如果不考虑未来的话,现在记录得很开心,如果未来需要换软件,那就会很痛苦。

    1 回复
  • 查看全部回帖

推荐标签 标签

  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖 • 1 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖 • 5 关注
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    198 引用 • 550 回帖
  • OnlyOffice
    4 引用 • 3 关注
  • 笔记

    好记性不如烂笔头。

    308 引用 • 793 回帖 • 1 关注
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 31 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 1 关注
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 58 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 537 关注
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 2 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    75 引用 • 1737 回帖 • 5 关注
  • Windows

    Microsoft Windows 是美国微软公司研发的一套操作系统,它问世于 1985 年,起初仅仅是 Microsoft-DOS 模拟环境,后续的系统版本由于微软不断的更新升级,不但易用,也慢慢的成为家家户户人们最喜爱的操作系统。

    222 引用 • 473 回帖 • 1 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 642 关注
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    179 引用 • 995 回帖
  • CodeMirror
    1 引用 • 2 回帖 • 129 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    170 引用 • 414 回帖 • 387 关注
  • Electron

    Electron 基于 Chromium 和 Node.js,让你可以使用 HTML、CSS 和 JavaScript 构建应用。它是一个由 GitHub 及众多贡献者组成的活跃社区共同维护的开源项目,兼容 Mac、Windows 和 Linux,它构建的应用可在这三个操作系统上面运行。

    15 引用 • 136 回帖 • 1 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    543 引用 • 672 回帖 • 1 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 3 关注
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    334 引用 • 323 回帖
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 463 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    47 引用 • 25 回帖
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    6 引用 • 15 回帖 • 114 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 1 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    132 引用 • 1114 回帖 • 124 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 302 关注