登录注册

功能遐想：语义搜索

本贴最后更新于 762 天前，其中的信息可能已经水流花落

刚才看到一个软件功能介绍，感觉里面的 AI 功能「语义搜索」有点意思。

https://www.bilibili.com/video/BV1Rh411F71c/

我觉得「语义搜索」应该是知识管理的刚需，平常不同的表述一大堆完全记不住，记不住又找不到真的很烦。

我是把思源笔记作为知识库用的，如果能在思源笔记的搜索中引入「语义搜索」的 AI 功能（搜索算法），应该会很有帮助。

这个功能应该能够在本地实现而不用联网

试一下投票功能

你想要这种功能吗？

多选 • 公开 • 永不结束 44 票

想要

84% • 37 票

用不上

6% • 3 票

讨论讨论

9% • 4 票

思源笔记

思源笔记是一款隐私优先的个人知识管理系统，支持完全离线使用，同时也支持端到端加密同步。

融合块、大纲和双向链接，重构你的思维。
28446 引用 • 119783 回帖

2 引用

有没有可能用本地部署的 AI 取代双链、标签、文档树、模糊搜索之类的功能吗？ • JeffreyChen

Notion 快要能用自然语言检索笔记了，思源这边有望实现类似功能吗？ • JeffreyChen

1 操作

JeffreyChen 在 2023-11-20 21:43:56 更新了该帖

JeffreyChen 2 年前

1 感谢

2 引用

1 操作

25 回帖

2.5k 256 27 1.6k 34 11 538

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

注册关于

请输入回帖内容 ...

8V9q7V • 2 年前
订阅者支持者捐赠者勇士

我觉得 D 大目前没空搞这些。obsidian 这么大的用户量都没搞这个功能。

1 回复
JeffreyChen • 2 年前
订阅者付费者支持者捐赠者先知恶龙作者

所以说是遐想根本没法指望

但我觉得更多的 AI 功能应该是个人知识管理的未来必需品
zxhd86 • 2 年前 • 1 赞同
订阅者先知

你是否在找：思源小助手插件？

1 回复
player • 2 年前
付费者捐赠者

需要有价格不菲的显卡来跑大模型。每个文档都有分段做 embedding 向量。然后搜索词也做 embedding 向量。最后做个查几个文档，与问题最相近的。这样基本就可了。能接入 openai，也可以调接口完成。
JeffreyChen • 2 年前
订阅者付费者支持者捐赠者先知恶龙作者

话说思源小助手现在能用吗？我之前下载了，但 README 里没有教程，下载了也没有界面（设置点不开、Dock 多出两个空按钮、块菜单里也没多出什么）

1 回复
muxue • 2 年前
付费者捐赠者

想法是好的，但是想纯本地运行就是有点异想天开了。

思源现在估计很难入局做这种 AI 类的东西，太耗精力了，再加上 openai 的 api key 的价格也不便宜，我觉得在思源笔记的笔记功能能独当一面之前都不要为了 ai 去做过多投入。

1 回复
JeffreyChen • 2 年前
订阅者付费者支持者捐赠者先知恶龙作者

这种「AI」其实就是搜索算法，印象中很久以前就有了，用不上大语言模型那么高端的东西。

刚才上 GitHub 也搜到了一些相关的项目，但我对搜索这方面不了解，所以也不好说。
xnyshu • 2 年前 • 1 赞同
支持者捐赠者

这个功能颠覆了双链。更灵活，不需要费时添加链接。

2 回复
JeffreyChen • 2 年前
订阅者付费者支持者捐赠者先知恶龙作者

换个角度看也可以更方便建立双向链接
zxhd86 • 2 年前 • 1 • 1 评论
订阅者先知

功能很多，所以文档天然难产，毕竟作者是写给自己用的，他不需要文档就知道怎么用，在写代码花了很大功夫的情况下对于写文档就提不起热情了……

两个 dock，一个是 ai 对话，能根据你投喂给 ai 的块进行回答，另一个是智能推荐，其实就是语义搜索，会在你写文档的时候自动浮现相似的块。

但是，需要提前说明的是，在本地运行这个模型，对性能的消耗不小。

1 回复

害，写完程序就不想写文档了，这东西真要写文档得写老长了

leolee • 2 年前
zuoez02 • 2 年前
订阅者付费者先知

为了能本地运行，你投入的钱都得几万块……

1 回复
leolee • 2 年前
订阅者捐赠者恶龙

不用啦，用来做 embedding 的模型，不需要推理的那么大，量化以后百来兆的模型中文嵌入效果其实就不错了

1 回复
wumaojj • 2 年前
付费者

颠覆不敢说，但多一个震撼性的自动助理，是很好的。

就像现在的 AI 审片一样，可以给医生 N 多建议。

但说，拿掉医生？

当然，AI 的进化也可能很快打脸。
leolee • 2 年前
订阅者捐赠者恶龙

调成 openAI 或者索引占用核心改为 1，有时间得加一下星火和百度的嵌入接口
leolee • 2 年前 • 2 赞同
订阅者捐赠者恶龙
leolee • 2 年前
订阅者捐赠者恶龙
leolee • 2 年前
订阅者捐赠者恶龙

类似这样？

1 回复
leolee • 2 年前
订阅者捐赠者恶龙
JeffreyChen • 2 年前
订阅者付费者支持者捐赠者先知恶龙作者

感觉相当不错
xnyshu • 2 年前
支持者捐赠者

大神写篇教程。
leolee • 2 年前 • 1 赞同 • 1 评论
订阅者捐赠者恶龙

虽然我也顶了，不过我要先提醒一下哈，就我目前开发的经验来看，这个功能会面临几个问题：

如果嵌入使用本地模型的话，首先即使压缩模型的大小，中文可用的 sota 模型 text-vec-chinese 也至少是百来兆的，使用 cpu 嵌入性能占用不低，使用 gpu 的话暂时我还没有找到比较好整合进思源的库（我目前用的是 transformers.js）

然后如果使用远程的接口的话，要生成嵌入向量就需要把笔记内容发送给服务商的接口（思源小助手的嵌入选项只有本地模型和 open AI 也有这个原因），这里有可能有隐私问题。

再就是向量的最近邻计算，我用 js 来做的话单纯的计算倒不是很慢，几十万个块也能快速出结果，但是这样做的代价是把全部向量加载进了内存，如果不这样做的化还得找一个合适的向量数据库。

最后是向量的存储问题，如果检索粒度到单个内容块的话，尤其是对于习惯使用短文本列表的用户，特征向量文件的大小可能比笔记本身还要大很多，这也是一个问题。

1 回复

做进软件本体肯定就要找一下合适的向量数据库了，我这种绿皮搞法肯定是不行的

leolee • 2 年前
JeffreyChen • 2 年前
订阅者付费者支持者捐赠者先知恶龙作者

我知道这个功能非常难做好，但还是想顶帖看看有没有大佬感兴趣开发
JeffreyChen • 2 年前
订阅者付费者支持者捐赠者先知恶龙作者

顶顶贴，有人开发咩 👀
JeffreyChen • 1 年前
订阅者付费者支持者捐赠者先知恶龙作者

相关：有没有可能用本地部署的 AI 取代双链、标签、文档树、模糊搜索之类的功能吗？
Reader • 1 年前 • 1 赞同
付费者支持者捐赠者

这个功能很好，但是我觉得会非常难做好。不谈技术方面的问题，光逻辑层面就有一个大难题。其实视频开头也点出了这个问题了，即每个页面聚焦一个主题，搜索时以页面为基准。

但是思源是支持 Daily Note 笔记法的，所以在一个日记文档页面中可能会有 N 个不同的主题。而在系统文章中，则是一个页面一个主题了。

于是问题来了，语义搜索，究竟以什么粒度为基准？

如果以文档页面为基准，那会不会搜出来日记的杂讯？比如我搜一个 iPhone 的价格变化，那么有没有可能会搜出来，在一篇日记当中即写了 iPhone 性能提升，也写了新能源汽车价格变化，这样的一篇日记文档？

如果以块为基准，那么怎么界定主题的范围？比如我有一篇探讨历年 iPhone 的价格变化的文章，但是 iPhone 和价格这两个关键词，写在了不同的两个块中，那么能搜到吗？

当然，这只是我这个技术小白的一个疑惑，也许业内已经解决了但是我不知道，说错了还望勿怪

PS：这其实也是所有支持 Daily Note 笔记法的笔记软件难以解决的问题。搜索其实是以主题为基准的，传统笔记一篇文档就是一个主题，所以搜索相对来说好做。DN 流笔记，日常琐碎用块粒度记录，系统文章又用文档粒度记录，一个搜索方式难以兼容两种不同的书写粒度，所以搜索只有一半的功能。

1 操作
Reader 在 2023-12-12 11:39:20 更新了该回帖

请输入回帖内容 ...

JeffreyChen

目前作为思源笔记的半个客服、测试、开发、评审，在爱发电接受捐赠：https://afdian.com/a/JeffreyChen

回帖

11732

帖子

157

积分

11793

功能遐想：语义搜索

你想要这种功能吗？

相关帖子

申请退款, 找不到退款链接

标记背景底色能修改吗

如何使笔记本折叠后，记忆之前打开的格式，再次打开时恢复

问题反馈：右边侧边栏最小过宽

如何修改鼠标选中时的文本样式?

请问文档树中「笔记本」「子文档」的选择器分别是什么？

思源有类似 sonovel 的插件吗？？

欢迎来到这里！

近期热议

推荐标签标签

最新标签

功能遐想：语义搜索

你想要这种功能吗？

相关帖子

申请退款, 找不到退款链接

标记背景底色能修改吗

如何使笔记本折叠后，记忆之前打开的格式，再次打开时恢复

问题反馈：右边侧边栏最小过宽

如何修改鼠标选中时的文本样式?

请问文档树中「笔记本」「子文档」的选择器分别是什么？

思源有类似 sonovel 的插件吗？？

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签