搜索结果的匹配块的排列逻辑是什么呢?

本贴最后更新于 420 天前,其中的信息可能已经事过境迁

我之前提了一个反馈(希望能优化两个关于搜索结果的问题 - 链滴 (ld246.com)),在其中的第二点上提到了希望支持标题(或者说是“字母”)排序。

我现在又重新琢磨了一下搜索功能,发现我弄不懂搜索结果的匹配块的排列逻辑 😂

首先,我请问在排序方式中,那些排序要素应该都是针对“块”而不是“文档”吧?

Snipaste20240517162305.png

按“相关度排序”是什么意思呢?

如果这些排序方式都是针对的“块”的话,那么我想要的“按标题或字母排序”指的是“按文档的标题或字母排序”。

当排序方式是默认选择“类型”的情况下,我测试了一下,但我搞不懂匹配块的排列逻辑:

Snipaste20240517165821.png

为什么两个文档中匹配的表格块不是排列在一起咧?

为什么列表块的块标也是段落块呢?(我知道“搜索类型”中默认没有勾选列表和列表项,但还是不明白为什么。)

这些块的排列的先后顺序的依据是什么?

下图是“按相关度升序”的匹配结果,我也搞不懂它们的先后顺序的依据是什么?

Snipaste20240517170222.png

我觉得似乎有必要在用户指南中有一个专门的章节来解释其中的搜索匹配逻辑?

我提供的示例只是一个很小的测试集。当笔记比较多的时候,就更容易弄不懂匹配结果的排列逻辑。

就算我不理会其中的排列逻辑,但它们给我带来的最大困扰是同一个文档的块不一定会排列在一起,可能在搜索结果的第一页有 A 文档的一些块,然后再第四页又有 A 文档的一些块。B 文档的块可能也是如此分散。

我个人认为相对友好且易懂的搜索匹配的默认设置:“按文档分组”,块是“按原文内容顺序排序”,然后文档名包含对应关键字的文档优先排在最上面,并支持用户选择按文档名排序。

Snipaste20240517171146.png

有热心人可以解答一下我的疑惑吗?也可以说说你对 Siyuan 目前的搜索匹配的设计的看法?

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    26297 引用 • 109327 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • syjack
    作者

    懂了不少,谢谢。

    在搜索类型中没有默认勾选引述块、列表块和列表项快,在搜索匹配中,它们都会被默认看作为段落块,是这样吗?我个人觉得这样的设计好像有点拧巴,尽管理解之后就挺好明白的。

  • 其他回帖
  • 88250 1

    默认的块类型排序是按块类型的 sort 值升序的,sort 值可参考 用户指南 - 数据库表 章节,当 sort 值相同时再按块更新时间降序。

    “相关度”排序指的是关键字在内容中的相关性,简单理解就是如果一段内容中关键字出现多次,则相关性更高,具体的排序算法用的是 SQLite FTS5 rank

    按文档分组不作为默认,因为大多数场景下需要的是搜索散列在不同文档中的关键字,如果用户的使用场景刚好是需要默认文档分组,可以考虑使用 保存查询条件 满足需求。

    1 回复
  • Wetoria 2 1 评论

    引述块不是可以当作段落块,而是引述块里,可以放其他块。说白了就是【[]】这样大块套小块。

    如果列表是【】、列表项是[]、段落块是{}、引述块是「」。

    引述块是:「{}」

    列表是【[{}]】

    理解了这种包含关系,就很容理解。

    我琢磨了一下,我想我理解了那个被包含的段落块了,谢谢。
    syjack
  • syjack
    作者

    谢谢,就是理解起来有点绕,照你所说,“引述块”也可以当成“段落块”。

    2 回复
  • 查看全部回帖

推荐标签 标签

  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    198 引用 • 543 回帖 • 2 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 37 关注
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    10113 引用 • 45927 回帖 • 63 关注
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 185 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 824 关注
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    167 引用 • 597 回帖 • 4 关注
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 233 回帖
  • PWL

    组织简介

    用爱发电 (Programming With Love) 是一个以开源精神为核心的民间开源爱好者技术组织,“用爱发电”象征开源与贡献精神,加入组织,代表你将遵守组织的“个人开源爱好者”的各项条款。申请加入:用爱发电组织邀请帖
    用爱发电组织官网:https://programmingwithlove.stackoverflow.wiki/

    用爱发电组织的核心驱动力:

    • 遵守开源守则,体现开源&贡献精神:以分享为目的,拒绝非法牟利。
    • 自我保护:使用适当的 License 保护自己的原创作品。
    • 尊重他人:不以各种理由、各种漏洞进行未经允许的抄袭、散播、洩露;以礼相待,尊重所有对社区做出贡献的开发者;通过他人的分享习得知识,要留下足迹,表示感谢。
    • 热爱编程、热爱学习:加入组织,热爱编程是首当其要的。我们欢迎热爱讨论、分享、提问的朋友,也同样欢迎默默成就的朋友。
    • 倾听:正确并恳切对待、处理问题与建议,及时修复开源项目的 Bug ,及时与反馈者沟通。不抬杠、不无视、不辱骂。
    • 平视:不诋毁、轻视、嘲讽其他开发者,主动提出建议、施以帮助,以和谐为本。只要他人肯努力,你也可能会被昔日小看的人所超越,所以请保持谦虚。
    • 乐观且活跃:你的努力决定了你的高度。不要放弃,多年后回头俯瞰,才会发现自己已经成就往日所仰望的水平。积极地将项目开源,帮助他人学习、改进,自己也会获得相应的提升、成就与成就感。
    1 引用 • 487 回帖 • 4 关注
  • 浅吟主题

    Jeffrey Chen 制作的思源笔记主题,项目仓库:https://github.com/TCOTC/Whisper

    1 引用 • 31 回帖 • 1 关注
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    291 引用 • 4495 回帖 • 663 关注
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 410 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 78 关注
  • 996
    13 引用 • 200 回帖
  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    268 引用 • 666 回帖 • 1 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 670 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖
  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    93 引用 • 122 回帖 • 616 关注
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    63 引用 • 289 回帖
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 2 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    85 引用 • 324 回帖
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    5 引用 • 16 回帖 • 1 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    12 引用 • 59 回帖
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    211 引用 • 358 回帖
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 117 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1062 引用 • 3455 回帖 • 149 关注
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    108 引用 • 295 回帖
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    4 引用 • 7 回帖