搜索结果的匹配块的排列逻辑是什么呢?

本贴最后更新于 317 天前,其中的信息可能已经事过境迁

我之前提了一个反馈(希望能优化两个关于搜索结果的问题 - 链滴 (ld246.com)),在其中的第二点上提到了希望支持标题(或者说是“字母”)排序。

我现在又重新琢磨了一下搜索功能,发现我弄不懂搜索结果的匹配块的排列逻辑 😂

首先,我请问在排序方式中,那些排序要素应该都是针对“块”而不是“文档”吧?

Snipaste20240517162305.png

按“相关度排序”是什么意思呢?

如果这些排序方式都是针对的“块”的话,那么我想要的“按标题或字母排序”指的是“按文档的标题或字母排序”。

当排序方式是默认选择“类型”的情况下,我测试了一下,但我搞不懂匹配块的排列逻辑:

Snipaste20240517165821.png

为什么两个文档中匹配的表格块不是排列在一起咧?

为什么列表块的块标也是段落块呢?(我知道“搜索类型”中默认没有勾选列表和列表项,但还是不明白为什么。)

这些块的排列的先后顺序的依据是什么?

下图是“按相关度升序”的匹配结果,我也搞不懂它们的先后顺序的依据是什么?

Snipaste20240517170222.png

我觉得似乎有必要在用户指南中有一个专门的章节来解释其中的搜索匹配逻辑?

我提供的示例只是一个很小的测试集。当笔记比较多的时候,就更容易弄不懂匹配结果的排列逻辑。

就算我不理会其中的排列逻辑,但它们给我带来的最大困扰是同一个文档的块不一定会排列在一起,可能在搜索结果的第一页有 A 文档的一些块,然后再第四页又有 A 文档的一些块。B 文档的块可能也是如此分散。

我个人认为相对友好且易懂的搜索匹配的默认设置:“按文档分组”,块是“按原文内容顺序排序”,然后文档名包含对应关键字的文档优先排在最上面,并支持用户选择按文档名排序。

Snipaste20240517171146.png

有热心人可以解答一下我的疑惑吗?也可以说说你对 Siyuan 目前的搜索匹配的设计的看法?

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    24827 引用 • 102126 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • Wetoria 2 1 评论 via macOS

    引述块不是可以当作段落块,而是引述块里,可以放其他块。说白了就是【[]】这样大块套小块。

    如果列表是【】、列表项是[]、段落块是{}、引述块是「」。

    引述块是:「{}」

    列表是【[{}]】

    理解了这种包含关系,就很容理解。

    我琢磨了一下,我想我理解了那个被包含的段落块了,谢谢。
    syjack
  • 其他回帖
  • Wetoria 1 via macOS

    关于你说的列表块:

    一个“一行”的列表,实际上包含“列表”、“列表项”、“段落”三个块。你没开启列表和列表项,所以搜索结果里只有列表中的“段落块“

    1 回复
  • 88250 1

    默认的块类型排序是按块类型的 sort 值升序的,sort 值可参考 用户指南 - 数据库表 章节,当 sort 值相同时再按块更新时间降序。

    “相关度”排序指的是关键字在内容中的相关性,简单理解就是如果一段内容中关键字出现多次,则相关性更高,具体的排序算法用的是 SQLite FTS5 rank

    按文档分组不作为默认,因为大多数场景下需要的是搜索散列在不同文档中的关键字,如果用户的使用场景刚好是需要默认文档分组,可以考虑使用 保存查询条件 满足需求。

    1 回复
  • syjack
    作者

    懂了不少,谢谢。

    在搜索类型中没有默认勾选引述块、列表块和列表项快,在搜索匹配中,它们都会被默认看作为段落块,是这样吗?我个人觉得这样的设计好像有点拧巴,尽管理解之后就挺好明白的。

  • 查看全部回帖

推荐标签 标签

  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    108 引用 • 295 回帖 • 2 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 249 关注
  • 叶归
    5 引用 • 16 回帖 • 11 关注
  • sts
    2 引用 • 2 回帖 • 226 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 100 关注
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 8 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 655 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    586 引用 • 3538 回帖
  • CodeMirror
    1 引用 • 2 回帖 • 155 关注
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    85 引用 • 165 回帖 • 1 关注
  • 七牛云

    七牛云是国内领先的企业级公有云服务商,致力于打造以数据为核心的场景化 PaaS 服务。围绕富媒体场景,七牛先后推出了对象存储,融合 CDN 加速,数据通用处理,内容反垃圾服务,以及直播云服务等。

    28 引用 • 226 回帖 • 135 关注
  • Notion

    Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.

    10 引用 • 76 回帖
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    132 引用 • 796 回帖
  • 音乐

    你听到信仰的声音了么?

    62 引用 • 512 回帖
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3455 回帖 • 165 关注
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 503 关注
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 546 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    20 引用 • 7 回帖 • 2 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    36 引用 • 35 回帖 • 1 关注
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    325 引用 • 1395 回帖 • 1 关注
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 13 关注
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1708 回帖
  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖 • 3 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 665 关注
  • 浅吟主题

    Jeffrey Chen 制作的思源笔记主题,项目仓库:https://github.com/TCOTC/Whisper

    1 引用 • 28 回帖