关于实现“相关性”笔记功能的可行性思考,以及困惑

本贴最后更新于 279 天前,其中的信息可能已经事过境迁

关于实现“相关性”笔记功能

我刚才简单的思考了一下实现部分逻辑,当前遇到的问题是“文档性笔记如何确定哪些部分可以算作一个整体,或者看作一个卡片,去计算相关度”,尤其是针对我自己这种习惯大纲笔记的人来桌,毕竟我的笔记中除了撰写正稿之外都是大纲的形式

这点来说 flomo 就有本身的优势,因为它本身就可以看作是一张张卡片组成的,相关性的查找到卡的级别刚好,但咱思源这是“文档式”的啊

如果给出文档的相关度,担心文档太长,如果按照一个段落尤其是一个条大纲笔记的时候,又担心相关度太低,如果多条大纲笔记隶属于一个局部主题又难以界定界限在哪里

总不能因为一个相关度的功能就让我改变记录习惯的吧

啧啧,万一对此谈论出可行性,万一…万一…

万一就……

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25409 引用 • 105048 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • science 1 评论

    “相关性”的本质就是全局搜索当前页面标题的结果,并将其展示在面板上(不管这个面板叫相关性面板 or 反链面板)。也就是说,只要支持全局搜索的软件,都可以轻易做到相关页面,后续只需要优化搜索逻辑即可

    1 回复
    这个不是现成的么,可以下载个思源,稍微用用就可以找到了
    Bard
  • “相关性”的本质就是全局搜索当前页面标题的结果

    这完全是虚假的相关嘛,只有标题相关而内容不相关的话怎么算“相关”呢。

    要排序的话就必须要知道内容的相关性才行。

    1 回复
  • pakeh2866

    flomo 是 XX,不要太 care.

  • science

    因为文章标题和各级标题本来就是文章内容和段落内容的总结

    1 回复
  • ACai 1 评论
    1 回复
    啧啧,只是点开一看。本来以为是蝶醋啊,结果人家都是直接酿醋种小麦啊 🤣
    Bard
  • fradeet

    印象笔记就有“相关笔记”功能,通过一种算法来计算笔记与其他笔记的相似性。个人在用印象笔记的时候觉得这个功能很妙,可以筛选其他“可能”相关的笔记。

    同感要把这样一个边角料功能拿来当正餐……可能只有部署个本地大模型才能驾驭得住了。

    image.png

    1 回复
  • 你这个方案算是把用 dailynotes 的抛弃了

  • Bard 1 赞同

    是啊

    盲猜印象的应该是基于“词汇”的搜索,毕竟之前只有这技术

    但是,时代变了啊,当前 LLM 才能更好的从“语义”层面实现相关性

  • Bard

    也对,其实想到这个问题之前,就应该想到这个肯定有现成作业可看的trollface

  • Bard

    根据楼上大佬提供信息,我也都去瞥了一眼开源项目

    假设已经有可行性的作业可以抄了

    又一想,问题还是这蝶饺子不够大,做这蝶醋太费劲啊

    开源呢,少有人能有 Z 佬级别的实力

    诚然可以做付费,但这碟饺子又难以够量啊

    还得继续思考,多过去看看人家的作业再说

  • Bard

    看完三个开源项目 README.md,我 TM 人都傻了

    我这天真的小脑瓜只会“把大象放冰箱”啊

    就像第一步蒸馏数据,第二步塞给 LLM,最后得到相关性文档 😋

  • Bard

    其实,既然用了 LLM 何必还纠结于跟自己这“一亩三分地”内的知识含量呢

    又有几个人的第二大脑能超过 LLM 呢,想干啥,直接让 LLM 现编不就完了吗 😂

    如果用 LLM 仅实现“相关度”实属用牛刀了

    “那就在思源里继续增加 LLM 的使用场景啊”

    这就还是个是倒醋或包饺子的问题啊,啧啧

  • Bard

    还不如直接去 OB 那里“胖巧侧记”“饮食力道”“醺醺善油”
    让他们朝着思源的方向走呢trollface

  • 相关笔记的重点不在于匹配什么。比如标题、内容。

    重点是你的所有数据,怎么喂给模型。总不可能你把所有笔记全丢给云端服务吧?

    只要介意这一点的,“相关性”这一点,就很难做到理想状态。

    最后只能实现一下简单的分词匹配

  • xnyshu via macOS

    这种分析总结关联之类的功能,终将被 AI 取代。

  • Bard

    所以使用在线 API 最好做成插件形式,隐私要求不大的,可以启用这个插件

    如果后期本地模型普及大众可用以后,就同时可以使用本地模型了

  • NishikigiReeves 1 赞同

    大模型随着更多的喂养,会越来越挤压笔记的生存空间。

    我在北京工作的同学已经开始每周都用大模型来应对所有的例会和总结等等。

    他 30 多年的人生里从来没写过笔记,也没练过写作,但是大模型突然给他外挂了写作能力。

    我认为大模型将来推开了的话,会更加挤压笔记软件-写作软件的空间。

    这种相关性,目前实现的都不够好,flomo 小便签用起来麻烦,印象笔记数据不可导出,writeathon 相关性要靠形成文档......

    只能说都在摸索吧,没有成熟的。

    1 回复
  • xnyshu via macOS

    笔记软件将来可能主要的作用就是给 AI 提供一个界面和编辑器窗口,所以开发者应该把重点放在将来怎样跟 AI 配合上,让数据库更高效,让编辑器更好用,让界面更人性化,这些才是重点。

请输入回帖内容 ...

推荐标签 标签

  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 166 关注
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    7 引用 • 69 回帖
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    143 引用 • 442 回帖 • 1 关注
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 436 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 77 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖 • 1 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    24 引用 • 241 回帖 • 1 关注
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 467 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    173 引用 • 414 回帖 • 364 关注
  • 笔记

    好记性不如烂笔头。

    310 引用 • 794 回帖
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    211 引用 • 358 回帖 • 1 关注
  • 30Seconds

    📙 前端知识精选集,包含 HTML、CSS、JavaScript、React、Node、安全等方面,每天仅需 30 秒。

    • 精选常见面试题,帮助您准备下一次面试
    • 精选常见交互,帮助您拥有简洁酷炫的站点
    • 精选有用的 React 片段,帮助你获取最佳实践
    • 精选常见代码集,帮助您提高打码效率
    • 整理前端界的最新资讯,邀您一同探索新世界
    488 引用 • 384 回帖 • 10 关注
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 679 关注
  • Eclipse

    Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。

    76 引用 • 258 回帖 • 628 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    22 引用 • 148 回帖 • 16 关注
  • 小说

    小说是以刻画人物形象为中心,通过完整的故事情节和环境描写来反映社会生活的文学体裁。

    32 引用 • 108 回帖
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 85 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 385 关注
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    133 引用 • 1124 回帖 • 111 关注
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 106 关注
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    730 引用 • 1280 回帖 • 5 关注
  • Kubernetes

    Kubernetes 是 Google 开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。

    116 引用 • 54 回帖 • 4 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖 • 1 关注