关于搜索性能问题

本贴最后更新于 912 天前,其中的信息可能已经水流花落

我个人感觉自从更新了按文档分类搜索后搜索时间增加了很多,目前我搜索一个东西无论是文档内还是全局搜索都是 5 秒左右,但是之前基本都是 1 秒就行,这导致我当初第一时间更新后又回退到旧版本了,旧版本的搜索还是很流畅。这两天发布了 2.5.3 后我又更新试了试但是发现搜索性能还是不行,我不知道是什么原因导致的,试过换成默认主题速度还是慢。跟之前速度对比起来确实相差好几倍。

但是在 2.5.3 我选择不分组搜索后速度还是很慢,我也不清楚是什么原因导致的。

我不知道有没有同样遇到这种问题的。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25834 引用 • 106980 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 同感,感觉目前的搜索时长已经接近无法忍耐的边缘了。

    1 回复
  • 麻烦提供一下日志,我们看下是否能看出问题,谢谢。

    1 回复
  • systemlog.zip

    已提供日志。

    刚才又仔细观察了一下,我所说的搜索时间长是指从输入完整的关键词到 ctrl+p 界面完整显示内容需要比较长的时间,中间大部分时间页面是空白的转圈状态,所以,不一定是搜索效率低,也可能是显示内容需要的时间长。

    1 回复
  • 打开了虚拟引用吗?开了的话加载文档会比较慢。

    2 回复
  • zhaoshengmu 1 评论

    我虚拟引用是打开的,但是应该不是它的问题,因为在 2.5.0 开虚拟引用搜索速度还是很快,并且我刚才关闭了虚拟引用并且重启了应用但是速度还是很慢,大概平均搜一个要转圈 5 秒,基本不可忍受的时间。systemlog.zip

    哦不对,我虚拟引用是一直关着的所以不是它的问题,我刚才说错了我看到设置-搜索中虚拟引用的地方开着我以为自己虚拟引用也开着,忘记前段时间已经关了它了,出现搜索问题前就关了
    zhaoshengmu
  • 我虚拟引用一直是开的,跟楼主的感受也差不多,就最近两三个版本开始明显变慢了。前面的版本都还好。我的比计数据量比较大(纯文本 52MB),不知道是否跟这个有关系。

    2 回复
  • zhaoshengmu 1 评论

    应该也不是,它是一个升级版本后断崖式搜索性能下降的问题,在没有搜索结果分类显示前性能都是好的,我之前一段时间都是回退版本使用的

    而且这个也是个例,在我电脑上就是有这个问题但是别的人就没这个问题
    zhaoshengmu
  • 我这边测试在一个 1G 大小的 siyuan.db 上、data 中 .sy 大小 300M,搜索性能没有太慢,默认使用的是 64 的搜索结果条目限制。

    有空的话可以帮忙测试在一个新的工作空间导入这个看看 https://github.com/Zettelkasten-Method/10000-markdown-files

    1 回复
  • 我没有导入新的工作空间(还在上班),仅仅是把搜索条目限制还原到 64(原先是 3200),感觉速度有明显改善。

    这个设置应该是影响因素之一。

    但是为了确保搜索结果没有遗漏,我还是不愿意把这个参数调的太小,不知道是不是还有其他的改进思路?

    1 回复
  • 我不太理解为什么要把搜索结果条目设置那么大哦,这样展示出来的结果太多了,能说下使用场景吗?

    2 回复
  • 我导入 github 的这个发现搜索速度确实挺快,比我的笔记内容搜索起来快多了,这是什么原因,我的笔记肯定没有导入的这个多。那个搜索结果条目如果设置小了会不会导致有些没被搜索出来?(哦对今天我发现代码语言中没有 vue,typora 中是有的)

    1 回复
  • 如果命中结果太多的话会,但是我觉得结果太多实际上人也看不过来,所以设置太大意义不大吧。

  • 我把思源笔记当做一个法规库来用,目前管理了大概 400 多份法规原文以及差不多体量的我自己整理的笔记,因为有些细节规定很难靠大脑准确记住,工作中有需求的话我都随时用思源来搜索,类似一个本地版的“北大法宝”。所以,搜索结果的完整性对我很重要,我担心那个变量设置太小的话,即使我本地已经有相应的法规,但搜索的时候还是找不到它,所以就随手设置了一个比较大的值,其实到底是 2000 还是 3000,就我目前的数据库来说,应该都不影响结果的完整性。

    所以我其实不太能理解设置这个限制的意义(性能影响除外),如果搜索到的结果是不完整的,那笔记的价值不就大打折扣了吗?搜不到的笔记和没有这条笔记感觉没区别。

    2 回复
  • 赞同这种做法,搜索条数其实没必要限制。

    如果太多,感觉可以做到分页加载,减少一次太多影响性能,但是搜不到,真的就和没有这个记录这个笔记没区别了。

    1 回复
  • 设置太大的话没有意义吧,比如设置为限制 2K 条,那么这些结果就算命中了也看不完吧。

    我举个例子,比如默认设置 64 条,如果整个库中只有 3 条符合条件,那么结果就命中这 3 条,不会出现搜不到的情况,这个条目数设置并不需要超过库中的块数。

  • 搜索不到的情况只存在于搜索结果太多时,这时候应该是通过指定排序或者增加搜索条件来缩小搜索范围,而不是让用户在大量的搜索结果中肉眼再去查找,这样就失去搜索的意义了。

    从技术上而言是可以通过分页加载解决问题,但是我觉得这是个设计问题,不是技术问题。搜索支持分页加载后会增加用户在搜索上花费的时间。

    当然,如果大家觉得有必要这样做,我们会往这个方向考虑一下的,谢谢。

    1 回复
  • 我能理解你限制命中条数的思路了。确实是,可以通过优化关键词和添加其他限制条件来提高命中结果的精确程度,但是目前存在两个问题:

    1、目前的搜索 ui 不够完善,想达到以上目的只能使用 sql,这个门槛太高了。我日常使用的一些商业化网站(用于搜索法规或者搜索上市公司公告,都是各类纯文本内容),几乎都能做到分别针对标题、内容、发文单位、所在板块、发文时间等多个主题设置不同的关键词,且允许设置多个关键词之间的且和或的关系,还允许设置多个关键词之间是在同句、同段或同篇文字出现,以及明确排除某些关键词(即制定不包含某些关键词)。做的好的,甚至能够就特定事项列出专门的搜索框(例如某事项是否审核通过,因为这类事项不是类似发文单位这种文件中现成且固定出现的内容,通过简单的搜索关键词很难保证结果全面,网站应该是做了专门的工作,感觉属于语义分析范畴)。而思源目前的搜索离我举的例子还有很大差距。

    2、即使做到以上程度(或者用 sql),在我的使用场景中,如果程序存在对命中条数的限制,因为没办法准确记得自己想要找到的完整内容,依旧会有搜不到特定内容的可能(我无法判断是我的搜索条件设置不准确导致搜不到,还是我的笔记不包含相关内容,或者是被程序的命中条数限制了所以不显示)。因此,最终还是需要通过比较简单的关键词来显示一个比较大范围的命中结果(确保包含了我目前笔记中的全部相关内容)之后进行肉眼筛选。所以,前段时间上线的分组功能很重要,即使命中结果很多,我也可以依据法规名称快速排除我不需要的项目(这种判断依靠的是我对该法规所覆盖内容的记忆,感觉很难简单的通过各种关键词设置来实现相同的目的)。

    所以,在我的使用场景中,优化搜索功能很重要(完善 ui,优化性能),希望 D 大考虑一下,是不是把相关优化工作的优先级提升一下 🙏

    1 回复
  • 88250 1
    1. 通过查询语法,可以解决或且,但是针对字段的搜索条件目前还是只能用 SQL
    2. 可以通过结果计数判断的,结果计数的计算过程不带条目数限制

    最近的版本一直在优化搜索,已经是最高优先级了。但是 SQL 可视化的特性暂时还没有计划,估计要等 2.6 完成间隔复习以后我们再排计划是先做这个还是先做白板,可能会发起社区投票收集建议,谢谢。

    1 回复
  • 感觉 276 的搜索速度比 274 有很大提升,同一个工作空间,我依旧设置搜索结果显示数量是 3200,ctrl+p 显示结果的速度显著快于以前的版本,是 276 在这方面做了改进吗?

    1 回复
  • 没有。

    1 回复
  • 奇怪。那有可能是因为我把操作系统从 win11 换成 win10,系统占用 cpu 明显降低了。
    但我在 win10 下用 274 也没感觉到便流畅。很奇怪。

请输入回帖内容 ...

推荐标签 标签

  • 音乐

    你听到信仰的声音了么?

    62 引用 • 512 回帖
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 33 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    167 引用 • 408 回帖 • 490 关注
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    35 引用 • 468 回帖 • 763 关注
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 60 关注
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    6 引用 • 26 回帖 • 544 关注
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 519 关注
  • 反馈

    Communication channel for makers and users.

    122 引用 • 912 回帖 • 279 关注
  • IPFS

    IPFS(InterPlanetary File System,星际文件系统)是永久的、去中心化保存和共享文件的方法,这是一种内容可寻址、版本化、点对点超媒体的分布式协议。请浏览 IPFS 入门笔记了解更多细节。

    20 引用 • 245 回帖 • 226 关注
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 110 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 2 关注
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 644 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 221 关注
  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    91 引用 • 122 回帖 • 621 关注
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    336 引用 • 324 回帖
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    98 引用 • 903 回帖
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 610 关注
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    79 引用 • 431 回帖 • 1 关注
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    12 引用 • 5 回帖 • 636 关注
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    10 引用 • 15 回帖 • 5 关注
  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    7 引用 • 27 回帖
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 86 关注
  • Follow
    4 引用 • 12 回帖 • 5 关注
  • 代码片段

    代码片段分为 CSS 与 JS 两种代码,添加在 [设置 - 外观 - 代码片段] 中,这些代码会在思源笔记加载时自动执行,用于改善笔记的样式或功能。

    用户在该标签下分享代码片段时需在帖子标题前添加 [css] [js] 用于区分代码片段类型。

    177 引用 • 1247 回帖
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    37 引用 • 157 回帖 • 1 关注