关于实现“相关性”笔记功能的可行性思考,以及困惑

关于实现“相关性”笔记功能

我刚才简单的思考了一下实现部分逻辑,当前遇到的问题是“文档性笔记如何确定哪些部分可以算作一个整体,或者看作一个卡片,去计算相关度”,尤其是针对我自己这种习惯大纲笔记的人来桌,毕竟我的笔记中除了撰写正稿之外都是大纲的形式

这点来说 flomo 就有本身的优势,因为它本身就可以看作是一张张卡片组成的,相关性的查找到卡的级别刚好,但咱思源这是“文档式”的啊

如果给出文档的相关度,担心文档太长,如果按照一个段落尤其是一个条大纲笔记的时候,又担心相关度太低,如果多条大纲笔记隶属于一个局部主题又难以界定界限在哪里

总不能因为一个相关度的功能就让我改变记录习惯的吧

啧啧,万一对此谈论出可行性,万一…万一…

万一就……

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    23014 引用 • 92567 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • science 1 评论

    “相关性”的本质就是全局搜索当前页面标题的结果,并将其展示在面板上(不管这个面板叫相关性面板 or 反链面板)。也就是说,只要支持全局搜索的软件,都可以轻易做到相关页面,后续只需要优化搜索逻辑即可

    1 回复
    这个不是现成的么,可以下载个思源,稍微用用就可以找到了
    Bard
  • “相关性”的本质就是全局搜索当前页面标题的结果

    这完全是虚假的相关嘛,只有标题相关而内容不相关的话怎么算“相关”呢。

    要排序的话就必须要知道内容的相关性才行。

    1 回复
  • pakeh2866

    flomo 是 XX,不要太 care.

  • science

    因为文章标题和各级标题本来就是文章内容和段落内容的总结

    1 回复
  • ACai 1 评论
    1 回复
    啧啧,只是点开一看。本来以为是蝶醋啊,结果人家都是直接酿醋种小麦啊 🤣
    Bard
  • fradeet

    印象笔记就有“相关笔记”功能,通过一种算法来计算笔记与其他笔记的相似性。个人在用印象笔记的时候觉得这个功能很妙,可以筛选其他“可能”相关的笔记。

    同感要把这样一个边角料功能拿来当正餐……可能只有部署个本地大模型才能驾驭得住了。

    image.png

    1 回复
  • 你这个方案算是把用 dailynotes 的抛弃了

  • Bard 1 赞同

    是啊

    盲猜印象的应该是基于“词汇”的搜索,毕竟之前只有这技术

    但是,时代变了啊,当前 LLM 才能更好的从“语义”层面实现相关性

  • Bard

    也对,其实想到这个问题之前,就应该想到这个肯定有现成作业可看的trollface

  • Bard

    根据楼上大佬提供信息,我也都去瞥了一眼开源项目

    假设已经有可行性的作业可以抄了

    又一想,问题还是这蝶饺子不够大,做这蝶醋太费劲啊

    开源呢,少有人能有 Z 佬级别的实力

    诚然可以做付费,但这碟饺子又难以够量啊

    还得继续思考,多过去看看人家的作业再说

  • Bard

    看完三个开源项目 README.md,我 TM 人都傻了

    我这天真的小脑瓜只会“把大象放冰箱”啊

    就像第一步蒸馏数据,第二步塞给 LLM,最后得到相关性文档 😋

  • Bard

    其实,既然用了 LLM 何必还纠结于跟自己这“一亩三分地”内的知识含量呢

    又有几个人的第二大脑能超过 LLM 呢,想干啥,直接让 LLM 现编不就完了吗 😂

    如果用 LLM 仅实现“相关度”实属用牛刀了

    “那就在思源里继续增加 LLM 的使用场景啊”

    这就还是个是倒醋或包饺子的问题啊,啧啧

  • Bard

    还不如直接去 OB 那里“胖巧侧记”“饮食力道”“醺醺善油”
    让他们朝着思源的方向走呢trollface

  • 相关笔记的重点不在于匹配什么。比如标题、内容。

    重点是你的所有数据,怎么喂给模型。总不可能你把所有笔记全丢给云端服务吧?

    只要介意这一点的,“相关性”这一点,就很难做到理想状态。

    最后只能实现一下简单的分词匹配

  • 这种分析总结关联之类的功能,终将被 AI 取代。

  • Bard

    所以使用在线 API 最好做成插件形式,隐私要求不大的,可以启用这个插件

    如果后期本地模型普及大众可用以后,就同时可以使用本地模型了

  • NishikigiReeves 1 赞同

    大模型随着更多的喂养,会越来越挤压笔记的生存空间。

    我在北京工作的同学已经开始每周都用大模型来应对所有的例会和总结等等。

    他 30 多年的人生里从来没写过笔记,也没练过写作,但是大模型突然给他外挂了写作能力。

    我认为大模型将来推开了的话,会更加挤压笔记软件-写作软件的空间。

    这种相关性,目前实现的都不够好,flomo 小便签用起来麻烦,印象笔记数据不可导出,writeathon 相关性要靠形成文档......

    只能说都在摸索吧,没有成熟的。

    1 回复
  • 笔记软件将来可能主要的作用就是给 AI 提供一个界面和编辑器窗口,所以开发者应该把重点放在将来怎样跟 AI 配合上,让数据库更高效,让编辑器更好用,让界面更人性化,这些才是重点。

请输入回帖内容 ...

推荐标签 标签

  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    728 引用 • 1273 回帖 • 1 关注
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 232 回帖
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 667 关注
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    17 引用 • 53 回帖 • 140 关注
  • 智能合约

    智能合约(Smart contract)是一种旨在以信息化方式传播、验证或执行合同的计算机协议。智能合约允许在没有第三方的情况下进行可信交易,这些交易可追踪且不可逆转。智能合约概念于 1994 年由 Nick Szabo 首次提出。

    1 引用 • 11 回帖 • 2 关注
  • Electron

    Electron 基于 Chromium 和 Node.js,让你可以使用 HTML、CSS 和 JavaScript 构建应用。它是一个由 GitHub 及众多贡献者组成的活跃社区共同维护的开源项目,兼容 Mac、Windows 和 Linux,它构建的应用可在这三个操作系统上面运行。

    15 引用 • 136 回帖 • 1 关注
  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 63 关注
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    209 引用 • 358 回帖
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    142 引用 • 442 回帖 • 1 关注
  • 工具

    子曰:“工欲善其事,必先利其器。”

    288 引用 • 734 回帖 • 2 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖 • 2 关注
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    107 引用 • 295 回帖
  • 导航

    各种网址链接、内容导航。

    42 引用 • 175 回帖
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖 • 1 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    89 引用 • 345 回帖 • 1 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    210 引用 • 2036 回帖
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 335 关注
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    53 引用 • 37 回帖 • 3 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 559 关注
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 635 关注
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    5 引用 • 18 回帖 • 172 关注
  • 自由行
    4 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    167 引用 • 1520 回帖
  • gRpc
    11 引用 • 9 回帖 • 69 关注
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4601 回帖 • 700 关注