关于搜索性能问题

本贴最后更新于 991 天前,其中的信息可能已经水流花落

我个人感觉自从更新了按文档分类搜索后搜索时间增加了很多,目前我搜索一个东西无论是文档内还是全局搜索都是 5 秒左右,但是之前基本都是 1 秒就行,这导致我当初第一时间更新后又回退到旧版本了,旧版本的搜索还是很流畅。这两天发布了 2.5.3 后我又更新试了试但是发现搜索性能还是不行,我不知道是什么原因导致的,试过换成默认主题速度还是慢。跟之前速度对比起来确实相差好几倍。

但是在 2.5.3 我选择不分组搜索后速度还是很慢,我也不清楚是什么原因导致的。

我不知道有没有同样遇到这种问题的。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    26871 引用 • 112071 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 同感,感觉目前的搜索时长已经接近无法忍耐的边缘了。

    1 回复
  • 麻烦提供一下日志,我们看下是否能看出问题,谢谢。

    1 回复
  • systemlog.zip

    已提供日志。

    刚才又仔细观察了一下,我所说的搜索时间长是指从输入完整的关键词到 ctrl+p 界面完整显示内容需要比较长的时间,中间大部分时间页面是空白的转圈状态,所以,不一定是搜索效率低,也可能是显示内容需要的时间长。

    1 回复
  • 打开了虚拟引用吗?开了的话加载文档会比较慢。

    2 回复
  • zhaoshengmu 1 评论

    我虚拟引用是打开的,但是应该不是它的问题,因为在 2.5.0 开虚拟引用搜索速度还是很快,并且我刚才关闭了虚拟引用并且重启了应用但是速度还是很慢,大概平均搜一个要转圈 5 秒,基本不可忍受的时间。systemlog.zip

    哦不对,我虚拟引用是一直关着的所以不是它的问题,我刚才说错了我看到设置-搜索中虚拟引用的地方开着我以为自己虚拟引用也开着,忘记前段时间已经关了它了,出现搜索问题前就关了
    zhaoshengmu
  • 我虚拟引用一直是开的,跟楼主的感受也差不多,就最近两三个版本开始明显变慢了。前面的版本都还好。我的比计数据量比较大(纯文本 52MB),不知道是否跟这个有关系。

    2 回复
  • zhaoshengmu 1 评论

    应该也不是,它是一个升级版本后断崖式搜索性能下降的问题,在没有搜索结果分类显示前性能都是好的,我之前一段时间都是回退版本使用的

    而且这个也是个例,在我电脑上就是有这个问题但是别的人就没这个问题
    zhaoshengmu
  • 我这边测试在一个 1G 大小的 siyuan.db 上、data 中 .sy 大小 300M,搜索性能没有太慢,默认使用的是 64 的搜索结果条目限制。

    有空的话可以帮忙测试在一个新的工作空间导入这个看看 https://github.com/Zettelkasten-Method/10000-markdown-files

    1 回复
  • 我没有导入新的工作空间(还在上班),仅仅是把搜索条目限制还原到 64(原先是 3200),感觉速度有明显改善。

    这个设置应该是影响因素之一。

    但是为了确保搜索结果没有遗漏,我还是不愿意把这个参数调的太小,不知道是不是还有其他的改进思路?

    1 回复
  • 我不太理解为什么要把搜索结果条目设置那么大哦,这样展示出来的结果太多了,能说下使用场景吗?

    2 回复
  • 我导入 github 的这个发现搜索速度确实挺快,比我的笔记内容搜索起来快多了,这是什么原因,我的笔记肯定没有导入的这个多。那个搜索结果条目如果设置小了会不会导致有些没被搜索出来?(哦对今天我发现代码语言中没有 vue,typora 中是有的)

    1 回复
  • 如果命中结果太多的话会,但是我觉得结果太多实际上人也看不过来,所以设置太大意义不大吧。

  • 我把思源笔记当做一个法规库来用,目前管理了大概 400 多份法规原文以及差不多体量的我自己整理的笔记,因为有些细节规定很难靠大脑准确记住,工作中有需求的话我都随时用思源来搜索,类似一个本地版的“北大法宝”。所以,搜索结果的完整性对我很重要,我担心那个变量设置太小的话,即使我本地已经有相应的法规,但搜索的时候还是找不到它,所以就随手设置了一个比较大的值,其实到底是 2000 还是 3000,就我目前的数据库来说,应该都不影响结果的完整性。

    所以我其实不太能理解设置这个限制的意义(性能影响除外),如果搜索到的结果是不完整的,那笔记的价值不就大打折扣了吗?搜不到的笔记和没有这条笔记感觉没区别。

    2 回复
  • 赞同这种做法,搜索条数其实没必要限制。

    如果太多,感觉可以做到分页加载,减少一次太多影响性能,但是搜不到,真的就和没有这个记录这个笔记没区别了。

    1 回复
  • 设置太大的话没有意义吧,比如设置为限制 2K 条,那么这些结果就算命中了也看不完吧。

    我举个例子,比如默认设置 64 条,如果整个库中只有 3 条符合条件,那么结果就命中这 3 条,不会出现搜不到的情况,这个条目数设置并不需要超过库中的块数。

  • 搜索不到的情况只存在于搜索结果太多时,这时候应该是通过指定排序或者增加搜索条件来缩小搜索范围,而不是让用户在大量的搜索结果中肉眼再去查找,这样就失去搜索的意义了。

    从技术上而言是可以通过分页加载解决问题,但是我觉得这是个设计问题,不是技术问题。搜索支持分页加载后会增加用户在搜索上花费的时间。

    当然,如果大家觉得有必要这样做,我们会往这个方向考虑一下的,谢谢。

    1 回复
  • 我能理解你限制命中条数的思路了。确实是,可以通过优化关键词和添加其他限制条件来提高命中结果的精确程度,但是目前存在两个问题:

    1、目前的搜索 ui 不够完善,想达到以上目的只能使用 sql,这个门槛太高了。我日常使用的一些商业化网站(用于搜索法规或者搜索上市公司公告,都是各类纯文本内容),几乎都能做到分别针对标题、内容、发文单位、所在板块、发文时间等多个主题设置不同的关键词,且允许设置多个关键词之间的且和或的关系,还允许设置多个关键词之间是在同句、同段或同篇文字出现,以及明确排除某些关键词(即制定不包含某些关键词)。做的好的,甚至能够就特定事项列出专门的搜索框(例如某事项是否审核通过,因为这类事项不是类似发文单位这种文件中现成且固定出现的内容,通过简单的搜索关键词很难保证结果全面,网站应该是做了专门的工作,感觉属于语义分析范畴)。而思源目前的搜索离我举的例子还有很大差距。

    2、即使做到以上程度(或者用 sql),在我的使用场景中,如果程序存在对命中条数的限制,因为没办法准确记得自己想要找到的完整内容,依旧会有搜不到特定内容的可能(我无法判断是我的搜索条件设置不准确导致搜不到,还是我的笔记不包含相关内容,或者是被程序的命中条数限制了所以不显示)。因此,最终还是需要通过比较简单的关键词来显示一个比较大范围的命中结果(确保包含了我目前笔记中的全部相关内容)之后进行肉眼筛选。所以,前段时间上线的分组功能很重要,即使命中结果很多,我也可以依据法规名称快速排除我不需要的项目(这种判断依靠的是我对该法规所覆盖内容的记忆,感觉很难简单的通过各种关键词设置来实现相同的目的)。

    所以,在我的使用场景中,优化搜索功能很重要(完善 ui,优化性能),希望 D 大考虑一下,是不是把相关优化工作的优先级提升一下 🙏

    1 回复
  • 88250 1
    1. 通过查询语法,可以解决或且,但是针对字段的搜索条件目前还是只能用 SQL
    2. 可以通过结果计数判断的,结果计数的计算过程不带条目数限制

    最近的版本一直在优化搜索,已经是最高优先级了。但是 SQL 可视化的特性暂时还没有计划,估计要等 2.6 完成间隔复习以后我们再排计划是先做这个还是先做白板,可能会发起社区投票收集建议,谢谢。

    1 回复
  • 感觉 276 的搜索速度比 274 有很大提升,同一个工作空间,我依旧设置搜索结果显示数量是 3200,ctrl+p 显示结果的速度显著快于以前的版本,是 276 在这方面做了改进吗?

    1 回复
  • 没有。

    1 回复
  • 奇怪。那有可能是因为我把操作系统从 win11 换成 win10,系统占用 cpu 明显降低了。
    但我在 win10 下用 274 也没感觉到便流畅。很奇怪。

请输入回帖内容 ...

推荐标签 标签

  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    23 引用 • 22 回帖 • 2 关注
  • Notion

    Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.

    10 引用 • 77 回帖 • 2 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    4 引用 • 7 回帖 • 3 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1062 引用 • 3455 回帖 • 140 关注
  • 反馈

    Communication channel for makers and users.

    120 引用 • 906 回帖 • 284 关注
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 686 关注
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 414 关注
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 276 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 564 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    6 引用 • 143 回帖 • 1 关注
  • Access
    1 引用 • 3 回帖 • 4 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    247 引用 • 1340 回帖 • 1 关注
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 663 关注
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    43 引用 • 208 回帖 • 2 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 689 关注
  • Vditor

    Vditor 是一款浏览器端的 Markdown 编辑器,支持所见即所得、即时渲染(类似 Typora)和分屏预览模式。它使用 TypeScript 实现,支持原生 JavaScript、Vue、React 和 Angular。

    380 引用 • 1869 回帖
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    181 引用 • 400 回帖
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖 • 1 关注
  • 浅吟主题

    Jeffrey Chen 制作的思源笔记主题,项目仓库:https://github.com/TCOTC/Whisper

    2 引用 • 32 回帖 • 1 关注
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    121 引用 • 323 回帖
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 650 关注
  • NetBeans

    NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。

    78 引用 • 102 回帖 • 714 关注
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    199 引用 • 543 回帖 • 4 关注
  • Ant-Design

    Ant Design 是服务于企业级产品的设计体系,基于确定和自然的设计价值观上的模块化解决方案,让设计者和开发者专注于更好的用户体验。

    17 引用 • 23 回帖 • 12 关注
  • Oracle

    Oracle(甲骨文)公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年,甲骨文已超越 IBM,成为继 Microsoft 后全球第二大软件公司。

    107 引用 • 127 回帖 • 337 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 76 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    61 引用 • 29 回帖 • 7 关注