关于搜索性能问题

本贴最后更新于 593 天前,其中的信息可能已经水流花落

我个人感觉自从更新了按文档分类搜索后搜索时间增加了很多,目前我搜索一个东西无论是文档内还是全局搜索都是 5 秒左右,但是之前基本都是 1 秒就行,这导致我当初第一时间更新后又回退到旧版本了,旧版本的搜索还是很流畅。这两天发布了 2.5.3 后我又更新试了试但是发现搜索性能还是不行,我不知道是什么原因导致的,试过换成默认主题速度还是慢。跟之前速度对比起来确实相差好几倍。

但是在 2.5.3 我选择不分组搜索后速度还是很慢,我也不清楚是什么原因导致的。

我不知道有没有同样遇到这种问题的。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    20174 引用 • 77854 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 同感,感觉目前的搜索时长已经接近无法忍耐的边缘了。

    1 回复
  • 麻烦提供一下日志,我们看下是否能看出问题,谢谢。

    1 回复
  • systemlog.zip

    已提供日志。

    刚才又仔细观察了一下,我所说的搜索时间长是指从输入完整的关键词到 ctrl+p 界面完整显示内容需要比较长的时间,中间大部分时间页面是空白的转圈状态,所以,不一定是搜索效率低,也可能是显示内容需要的时间长。

    1 回复
  • 打开了虚拟引用吗?开了的话加载文档会比较慢。

    2 回复
  • zhaoshengmu 1 评论

    我虚拟引用是打开的,但是应该不是它的问题,因为在 2.5.0 开虚拟引用搜索速度还是很快,并且我刚才关闭了虚拟引用并且重启了应用但是速度还是很慢,大概平均搜一个要转圈 5 秒,基本不可忍受的时间。systemlog.zip

    哦不对,我虚拟引用是一直关着的所以不是它的问题,我刚才说错了我看到设置-搜索中虚拟引用的地方开着我以为自己虚拟引用也开着,忘记前段时间已经关了它了,出现搜索问题前就关了
    zhaoshengmu
  • 我虚拟引用一直是开的,跟楼主的感受也差不多,就最近两三个版本开始明显变慢了。前面的版本都还好。我的比计数据量比较大(纯文本 52MB),不知道是否跟这个有关系。

    2 回复
  • zhaoshengmu 1 评论

    应该也不是,它是一个升级版本后断崖式搜索性能下降的问题,在没有搜索结果分类显示前性能都是好的,我之前一段时间都是回退版本使用的

    而且这个也是个例,在我电脑上就是有这个问题但是别的人就没这个问题
    zhaoshengmu
  • 我这边测试在一个 1G 大小的 siyuan.db 上、data 中 .sy 大小 300M,搜索性能没有太慢,默认使用的是 64 的搜索结果条目限制。

    有空的话可以帮忙测试在一个新的工作空间导入这个看看 https://github.com/Zettelkasten-Method/10000-markdown-files

    1 回复
  • 我没有导入新的工作空间(还在上班),仅仅是把搜索条目限制还原到 64(原先是 3200),感觉速度有明显改善。

    这个设置应该是影响因素之一。

    但是为了确保搜索结果没有遗漏,我还是不愿意把这个参数调的太小,不知道是不是还有其他的改进思路?

    1 回复
  • 我不太理解为什么要把搜索结果条目设置那么大哦,这样展示出来的结果太多了,能说下使用场景吗?

    2 回复
  • 我导入 github 的这个发现搜索速度确实挺快,比我的笔记内容搜索起来快多了,这是什么原因,我的笔记肯定没有导入的这个多。那个搜索结果条目如果设置小了会不会导致有些没被搜索出来?(哦对今天我发现代码语言中没有 vue,typora 中是有的)

    1 回复
  • 如果命中结果太多的话会,但是我觉得结果太多实际上人也看不过来,所以设置太大意义不大吧。

  • 我把思源笔记当做一个法规库来用,目前管理了大概 400 多份法规原文以及差不多体量的我自己整理的笔记,因为有些细节规定很难靠大脑准确记住,工作中有需求的话我都随时用思源来搜索,类似一个本地版的“北大法宝”。所以,搜索结果的完整性对我很重要,我担心那个变量设置太小的话,即使我本地已经有相应的法规,但搜索的时候还是找不到它,所以就随手设置了一个比较大的值,其实到底是 2000 还是 3000,就我目前的数据库来说,应该都不影响结果的完整性。

    所以我其实不太能理解设置这个限制的意义(性能影响除外),如果搜索到的结果是不完整的,那笔记的价值不就大打折扣了吗?搜不到的笔记和没有这条笔记感觉没区别。

    2 回复
  • 赞同这种做法,搜索条数其实没必要限制。

    如果太多,感觉可以做到分页加载,减少一次太多影响性能,但是搜不到,真的就和没有这个记录这个笔记没区别了。

    1 回复
  • 设置太大的话没有意义吧,比如设置为限制 2K 条,那么这些结果就算命中了也看不完吧。

    我举个例子,比如默认设置 64 条,如果整个库中只有 3 条符合条件,那么结果就命中这 3 条,不会出现搜不到的情况,这个条目数设置并不需要超过库中的块数。

  • 搜索不到的情况只存在于搜索结果太多时,这时候应该是通过指定排序或者增加搜索条件来缩小搜索范围,而不是让用户在大量的搜索结果中肉眼再去查找,这样就失去搜索的意义了。

    从技术上而言是可以通过分页加载解决问题,但是我觉得这是个设计问题,不是技术问题。搜索支持分页加载后会增加用户在搜索上花费的时间。

    当然,如果大家觉得有必要这样做,我们会往这个方向考虑一下的,谢谢。

    1 回复
  • 我能理解你限制命中条数的思路了。确实是,可以通过优化关键词和添加其他限制条件来提高命中结果的精确程度,但是目前存在两个问题:

    1、目前的搜索 ui 不够完善,想达到以上目的只能使用 sql,这个门槛太高了。我日常使用的一些商业化网站(用于搜索法规或者搜索上市公司公告,都是各类纯文本内容),几乎都能做到分别针对标题、内容、发文单位、所在板块、发文时间等多个主题设置不同的关键词,且允许设置多个关键词之间的且和或的关系,还允许设置多个关键词之间是在同句、同段或同篇文字出现,以及明确排除某些关键词(即制定不包含某些关键词)。做的好的,甚至能够就特定事项列出专门的搜索框(例如某事项是否审核通过,因为这类事项不是类似发文单位这种文件中现成且固定出现的内容,通过简单的搜索关键词很难保证结果全面,网站应该是做了专门的工作,感觉属于语义分析范畴)。而思源目前的搜索离我举的例子还有很大差距。

    2、即使做到以上程度(或者用 sql),在我的使用场景中,如果程序存在对命中条数的限制,因为没办法准确记得自己想要找到的完整内容,依旧会有搜不到特定内容的可能(我无法判断是我的搜索条件设置不准确导致搜不到,还是我的笔记不包含相关内容,或者是被程序的命中条数限制了所以不显示)。因此,最终还是需要通过比较简单的关键词来显示一个比较大范围的命中结果(确保包含了我目前笔记中的全部相关内容)之后进行肉眼筛选。所以,前段时间上线的分组功能很重要,即使命中结果很多,我也可以依据法规名称快速排除我不需要的项目(这种判断依靠的是我对该法规所覆盖内容的记忆,感觉很难简单的通过各种关键词设置来实现相同的目的)。

    所以,在我的使用场景中,优化搜索功能很重要(完善 ui,优化性能),希望 D 大考虑一下,是不是把相关优化工作的优先级提升一下 🙏

    1 回复
  • 88250 1
    1. 通过查询语法,可以解决或且,但是针对字段的搜索条件目前还是只能用 SQL
    2. 可以通过结果计数判断的,结果计数的计算过程不带条目数限制

    最近的版本一直在优化搜索,已经是最高优先级了。但是 SQL 可视化的特性暂时还没有计划,估计要等 2.6 完成间隔复习以后我们再排计划是先做这个还是先做白板,可能会发起社区投票收集建议,谢谢。

    1 回复
  • 感觉 276 的搜索速度比 274 有很大提升,同一个工作空间,我依旧设置搜索结果显示数量是 3200,ctrl+p 显示结果的速度显著快于以前的版本,是 276 在这方面做了改进吗?

    1 回复
  • 没有。

    1 回复
  • 奇怪。那有可能是因为我把操作系统从 win11 换成 win10,系统占用 cpu 明显降低了。
    但我在 win10 下用 274 也没感觉到便流畅。很奇怪。

请输入回帖内容 ...

推荐标签 标签

  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    14 引用 • 7 回帖 • 3 关注
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 45 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    10 引用 • 88 回帖
  • 分享

    有什么新发现就分享给大家吧!

    245 引用 • 1776 回帖 • 3 关注
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    2 引用 • 14 回帖
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    11 引用 • 5 回帖 • 580 关注
  • 倾城之链
    23 引用 • 66 回帖 • 120 关注
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    6 引用 • 15 回帖 • 181 关注
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 623 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    7 引用 • 26 回帖
  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    5 引用 • 26 回帖 • 499 关注
  • OpenStack

    OpenStack 是一个云操作系统,通过数据中心可控制大型的计算、存储、网络等资源池。所有的管理通过前端界面管理员就可以完成,同样也可以通过 Web 接口让最终用户部署资源。

    10 引用 • 5 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 52 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3169 引用 • 8208 回帖 • 1 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    16 引用 • 7 回帖 • 2 关注
  • 博客

    记录并分享人生的经历。

    272 引用 • 2386 回帖 • 2 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 428 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 320 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    26 引用 • 85 回帖
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    51 引用 • 37 回帖 • 3 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 2 关注
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 82 关注
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    123 引用 • 168 回帖
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    9 引用 • 32 回帖 • 143 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 3 关注