思源未来能否实现基于已有笔记的 AI 问答 / 汇总筛选功能?

本贴最后更新于 311 天前,其中的信息可能已经沧海桑田

隔壁 Ob 数据格式是 md,我可以直接把整个库喂给本地大模型。一个类似的案例:素问 sooon.ai Q&A - 知乎

思源倒是也行,把笔记本导出成 md 喂给大模型即可。

但是我想象中的一些 Ob+ 大模型的可能的复杂用法就很难做了:

  1. 大模型只要做针对性优化,肯定还能识别出双链链接,毕竟 Ob 用户基数大,而且双链格式是显式的(思源的双链是基于 ID 的,大模型真的能认出来吗?),这种模型我相信以后肯定会有;进而识别出整个关系图。这样肯定有利于大模型的准确率。

  2. 针对某个专题,大模型可以直接帮我生成一份双链目录。

    1. 举个例子,比如我在 Ob 里记录了很多很多思源笔记的使用经验技巧,这种东西我不可能一开始就好好整理出一份目录的(整理这种目录很累很花时间而且收益很小);但是未来如果我要把我的笔记公开,或者去教别人、分享给别人的话,那就肯定需要有一个目录。如果是 Ob,显然大模型肯定有能力帮我写一个目录(每个双链还能附带简要说明),只要浏览[[思源笔记]]的反链即可,这样就省去我自己写的功夫了,还是那句话,自己写实在是花时间,而且收益很小。
  3. 总有一些内容是忘了加上相关双链、标签的,别名也无济于事。尤其是零碎内容,还有随着事态发展才意识到过去的 XX 的重要性的内容。

    1. 例如,生活日记,记了 20 年后我告诉 AI,“给我找出我笔记中所有和姐夫 XXX 相关的内容,他外号有 a,b,c,在 YY 公司、ZZ 公司干过,后来开了一家 BB 店”。显然这靠双链不能解决问题,只能求助于人工智能。比如这种日记“今天家庭聚会,大姐一家、大哥一家、姑姑姑父除了四姑一家外全都来了,……”,任何写笔记的人都不可能把所有参与者的名称全写一遍以便以后检索筛选。
    2. 再比如看剧,假设看《海贼王》《火影忍者》《三国演义》,我不可能每次写想法的时候都把人名全写一遍,也总有某些角色在看到后面的时候才喜欢上从而想快速查看之前写的相关内容,记录的笔记里写法可能是千奇百怪,角色本名中文日文罗马音片假名,外号简称一大堆,或者只提到演员/声优,从网上复制粘贴的内容的写法有更多花样,只要这个大模型已经基于网上搜集的数据集获取了这些基础知识,就能在筛选时帮我找出来我笔记中的相关内容。
    3. 例如,我现在需要让笔记软件展示出,我记录过的,看过的剧中,所有我有非常正面评价的反派角色,来做一个反派角色塑造分析的汇总。没有任何非影视专业的人在做观影笔记的时候会把「非常积极」「反派」这些关键词全都提前写上去的,这种需求只能靠 AI 分析笔记语义来汇总,AI 自己来判断我对某个角色的形容词是不是「非常积极」,根据网络上的相关知识来判断这个角色是否属于「反派」。

我想这些已经足够说明 AI 确实很有用。

(注:上述用处主要是在专业知识以外的领域。毕竟,专业知识本就应该需要投入大量时间去学习和梳理;而这以外的知识如果也要认真梳理代价太大,很不划算,这些知识不配,就算配,一般人也没有那个时间和能力去梳理。举个例子,网上有很多很多人情世故的好文章,这不是专业知识,不过大家都需要学,那你们会把这些知识点全部有条理地整理出来吗,也就是像课本那样的目录,第一章基础认识,第二章 XXXX,并且还配上简单说明?绝对不会,即使你想整理都整理不出来,绝大部分人根本没有利用剩余时间自创出一个完善大纲的能力,反正我是不行,每一个知识点都要考虑放到目录的什么地方,很痛苦,想不出来。)

当然现在的大模型还没这么厉害,但我相信以后一定会有,就像 Notion 的 AI,我看网上说,就可以根据自己写过的所有内容生成总结。


思源的数据格式是 json,所以要实现上述功能,我感觉就只能是把大模型加入到软件里(Ob 在这方面就无所谓,可以外部实现,这是一个类似实现:reorproject/reor: Self-organizing AI note-taking app that runs models locally.)。但是我还是想象不出来,大模型加到软件里是个什么场景,所以才有了标题的这个疑问:未来思源能实现这种功能吗?


即使实现了这个功能,我还有一个进一步的想法。

我知道有些人是习惯把网上看到的好内容剪藏到思源里,但我不是这么干的,我是用 singlefile 插件保存网页,在笔记软件里粘贴网页链接,然后简单写一下自己的想法。原因很简单,第一,这不是我自己写的内容,我的习惯是不把不是自己写的内容囫囵个儿地放到笔记里;第二,总有些网页剪藏的话会乱掉/不适合阅读,所以最终总会有内容不可能放到思源里;第三,就算网页内容整个儿保存进思源,那 PDF 呢,总不能复制粘贴进去啊。

如果用 Ob 的话,因为 Ob 使用 md,所以我可以把 md 文件和我保存的 HTML 网页、PDF 等资源一起喂给大模型。

进一步,做个畅想,比如有一个类似 ChatGPT 的大模型,已经基于网上的知识训练了,然后我把我本地的内容一起喂给它,这样我问他什么他都能基于网上的内容和本地的内容两方面来帮我筛选信息。我觉得这是很好的。

举一个例子:我保存了很多讲《三国演义》的拍摄花絮、演员导演采访的网页,但我不可能把这些网页全部变成笔记放到笔记软件里打上双链/双链,因为花絮太太太太太丰富了,我没那个时间。另外,笔记软件里也记录了一些笔记,很多是看视频的时候记录的。有一天我需要从我的资料库中调阅所有某角色的拍摄花絮,那么此时就需要大模型同时读取笔记里的内容还有保存的网页内容。

但是思源的话就不行,因为如之前所说,思源的大模型得加到软件里,根本不可能连网页、PDF 内容一并读取。即使假设思源不仅能把文本、关系图结构喂给大模型,还能把资源文件也喂给大模型,也不可能实现;我不可能把这些外部资源全都丢到思源的附件文件夹里,一是思源会强制给附件改名但有些附件是不应该被改名的,二是并不是所有外部资源思源都会用到,三是有些外部资源有它自己该在的位置,而不是放到思源的附件文件夹(Ob 可以通过软链接来轻松链接磁盘上任何内容,但是思源就不行)。

所以就很纠结。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    24471 引用 • 100064 回帖 • 2 关注
2 操作
LoneFireBlossom 在 2024-05-03 15:59:12 更新了该帖
LoneFireBlossom 在 2024-05-03 04:40:46 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 我的意思是非通识性的数据建议自己手动导出相关的数据,用最先进的模型进行分析,效果是最好的。举文献只是一个例子,因为我没有你那些方面的需求。因为文献也是输入数据让 ai 解析总结呀,连文献那么有逻辑的数据输入总结重点都做不好的话,又怎么能期待它对零散的数据可以总结的到位呢?

    根据我的理解,目前的模型用你导出的数据上传已经能满足你例子的要求了。可以用 kimi 试试。而使用嵌入模型实现的个人知识库,我个人觉得效果是没那么好的,容易丢信息,可以期待下未来的个人知识库模型。

    日常使用思源笔记,只要有意识将相关笔记进行归类,导出这些数据应该也不是很麻烦的事情,而不是期待未来 ai 来帮你把所有零散的数据找出来。我说的归类不是像书籍一样列条目,而是可以一股脑的全丢进一个主题笔记里,不管什么排版。就好像你说的三国演义花絮,影视评价。这也是渐进式笔记的核心,渐进积累,之后面向主题输出。

    而例子 3.1,我觉得用别名设置人的外号、他的公司归属、家庭归属,看提及面板就能很大程度符合需求了。有些东西,通过查询、程序就能实现的场景,我个人的习惯是优先用最准确的,ai 又不能保证不会漏,你查询语法写漏了补充上去就行。甚至可以先自己用 sql 查询宁可包含不相关的结果也尽量不要漏,获得的结果给 ai,进行总结、重新排版,这样的效果我觉得目前是最好的。思源要做 ai 助手,我想到的一个方案也就是通过 ai 生成 sql 查询语句获取内容后再进行分析

    我上述的回答确实都针对当下的 ai,因为我觉得当下很多场景当下就能做到,没必要畅想,只是需要自己折腾下。

    2 回复
    2 操作
    Achuan-2 在 2024-05-03 17:11:18 更新了该回帖
    Achuan-2 在 2024-05-03 17:05:58 更新了该回帖
  • 其他回帖
  • LoneFireBlossom

    我上述的回答确实都针对当下的 ai,因为我觉得当下很多场景当下就能做到,没必要畅想,只是需要自己折腾下。

    我认为有必要思考软件未来的发展潜力。也即,需要在「当前笔记记得舒服」和「笔记软件对下一代架构的适应能力」上找一个自己觉得可以的平衡点。

    首先,我认为当前的任何一款笔记软件是终极软件形态吗?未来会不会有下一代笔记软件?我认为会,而且目前看来,下一代就是在本代软件的基础上,结合了高度发达的 AI 大模型的笔记软件,而且这个下一代软件一定会成为彻底主流。至少我到时候一定会选择使用。

    其次,这个下一代笔记软件会有多久才能到来?我认为可能还需要几年到二十几年,不会更久了。

    最后,如果要做终身学习者,持续记录笔记,在上述前提下,就必须要考虑笔记的兼容性和可迁移性:要么是当前的笔记软件可以直接升级成下一代笔记软件形态,要么是当前的笔记可以以很低的成本、极小的信息损失迁移到下一代笔记软件。

    如果不考虑未来的话,现在记录得很开心,如果未来需要换软件,那就会很痛苦。

    1 回复
  • LoneFireBlossom

    我担心的是思源实现不了,或者说用非文本格式的软件都实现不了。

    第一,在我的理解中,软件接口只能让其他程序读取和操作软件里的一部分数据,而「把笔记内容、关系图全部喂给大模型」这种操作我想不是接口能解决的,必须是把大模型深度整合到思源里才有可能实现。

    第二,退一步讲,假设这能实现,但实际中,

    只要思源体量没那么大,未来这些 AI 模型只能是思源这边请求接入,把大模型深度整合到软件里,让模型可以实时读取分析所有笔记数据,所有适配恐怕基本上得思源这边来完成,我感觉可能还很麻烦,每个大模型都得来适配。如果用通用格式,可以用户自行选择使用哪家大模型。

    而且还有付费问题,如果这种整合要花钱恐怕也没法负担得起。

  • Achuan-2 2 评论

    那祝愿你期待的那一天早日到来吧

    我很满意我现在笔记方法,暂时并不期待所谓未来的 ai 笔记软件,因为 ai 能提高效率,能快速收集相关信息,但不能代替思考,我一直认为笔记最宝贵的内容,就是自己的思考,不思考又何必花时间记笔记。

    打太多标签、维护一个庞大的标签系统,很多情况下没有太大意义,dailynote 笔记法不是说不要分类,不分类的话哈桑为什么要介绍面向主题的 MOC 呢?我习惯面向主题的收集资料,只要专注当下的主题就好了,不必在乎这个主题到底属于什么分类。这种方法并不麻烦,能把我想要的信息和笔记整合,不管是专业领域,还是兴趣爱好笔记我都是这样干的。

    3 操作
    Achuan-2 在 2024-05-04 00:33:24 更新了该回帖
    Achuan-2 在 2024-05-04 00:20:22 更新了该回帖
    Achuan-2 在 2024-05-04 00:17:12 更新了该回帖
    这不是哈桑写的……
    LoneFireBlossom
    @LoneFireBlossom 哦哦抱歉,这个内容看着很熟悉,记错了。我修改下内容
    Achuan-2
  • 查看全部回帖

推荐标签 标签

  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 646 关注
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 214 关注
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 29 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 678 关注
  • Visio
    1 引用 • 2 回帖
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 83 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 74 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 44 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3455 回帖 • 170 关注
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 636 关注
  • IPFS

    IPFS(InterPlanetary File System,星际文件系统)是永久的、去中心化保存和共享文件的方法,这是一种内容可寻址、版本化、点对点超媒体的分布式协议。请浏览 IPFS 入门笔记了解更多细节。

    21 引用 • 245 回帖 • 230 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    188 引用 • 1057 回帖 • 1 关注
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    87 引用 • 139 回帖
  • 智能合约

    智能合约(Smart contract)是一种旨在以信息化方式传播、验证或执行合同的计算机协议。智能合约允许在没有第三方的情况下进行可信交易,这些交易可追踪且不可逆转。智能合约概念于 1994 年由 Nick Szabo 首次提出。

    1 引用 • 11 回帖
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    167 引用 • 595 回帖
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    88 引用 • 1235 回帖 • 407 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    20 引用 • 7 回帖 • 2 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖 • 2 关注
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    139 引用 • 269 回帖
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    62 引用 • 289 回帖 • 1 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 1 关注
  • Shell

    Shell 脚本与 Windows/Dos 下的批处理相似,也就是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的。但是它比 Windows 下的批处理更强大,比用其他编程程序编辑的程序效率更高,因为它使用了 Linux/Unix 下的命令。

    124 引用 • 74 回帖 • 1 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    178 引用 • 817 回帖
  • 生活

    生活是指人类生存过程中的各项活动的总和,范畴较广,一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。

    230 引用 • 1454 回帖
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 67 关注