[讨论] 关于英语词组、句子的搜索

本贴最后更新于 1138 天前,其中的信息可能已经时移世异

这个话题想了很久,还是提一提,不求近期有改进,但希望在思源长期计划中有所考虑。

附件上传了新概念 4 的 md 文件,作为测试的材料,主题为默认主题。感兴趣的朋友可以导入一下进行搜索测试,或者测试一下自己现有的一些英语文本。

现有问题

现在的搜索方案使用了分词器(技术上不懂),中文搜索看介绍说比原来的方案更好(比如支持中文单字搜索)以及 query 语句等等。

但是这个方案的副作用就是,所有以空格区分单词界限的语言,英法德意西等等,两个词及以上的搜索体验很不乐观。

首先,不能以普通用户熟悉的一些很自然搜索方式进行搜索。比如,more than 这个词组,用 VSCode 搜索有 9 个结果。在思源笔记里,鼠标划选词组 more than 并按搜索快捷键,或者呼出搜索窗口在搜索框输入 other than,出来的结果是很多条 other 或 than 的结果。而且思源目前没有搜索结果总数,用户甚至都没法数出有多少结果。上述软件反馈在直觉上很不自然,搜索结果也不是用户想要的。(现有的搜索方案,空格表示条件“或”)如下图:

111.png

其次,即使点击“查询语法”,给关键字前后加半角双引号,搜索结果栏貌似正常,但是,结果栏可能无高亮,文档页面的高亮也可能不显示。搜索结果的数量方面,自己数了一下思源搜索栏是 8 个,在 VScode 中搜索发现某一段 more than 有两处,思源在搜索栏的结果显示为一条。如下图:

222.png

如果搜索的是句子(查询语法 + 双引号),高亮问题也非常干扰用户的注意力。如下图:

333.png

第三,如上所述,搜索窗口没有显示搜索结果,结果总数是否正确需要用户自己数或者太多没法数。同一段如果有多个关键字命中,思源显示的结果栏和结果总数就会有差异,这种情况下就更需要有一个搜索结果的数字显示。

相关影响

即便上面所说的查询语法 + 关键字引号的高亮问题、搜索数量显示问题解决了,从效率上看,现有搜索方案离最佳实践还有相当距离。毕竟用最自然的方式搜索是绝大多数人的日常操作,不太可能有很多用户高频次的使用查询语法、query 语句进行查询。

目前的搜索体验,往小了说,会影响所有西方语言(空格分词)学习者的搜索效率。关键词前后输入引号也差不多要用两秒吧,如果是输入法是中文状态还要切换一下到英文状态。除了效率问题。更大的问题是,用户在其它文字编辑软件搜索时都是很自然的搜索体验,但在目前的思源还要让用户增加心智负担,为了一个正常的搜索结果,甚至可能要去了解并不熟悉的“查询语法”。

往大了说,目前的搜索方案可能会影响思源的国际化。西方语言(空格分词)学习者的基本搜索操作也是西方国家普通用户的搜索日常,甚至他们的搜索行为还要复杂,比如有各种特殊字符及符号(之前一些用户也反馈过某些字符需要加双引号才能搜索正常)。这些国家的普通用户估计会很难理解、适应目前这种搜索方法和搜索结果的呈现方式。

一个好的搜索方案,应该是以自然的、有效率的方式照顾大多数普通用户。然后对一些 power 用户,通过点击特定按钮/图标的方式实现更高级的查询方式,比如一些知名文本编辑软件对普通文字搜索和正则表达式搜索的处理方式。

而思源现在的搜索方案,貌似是反过来了,普通情况的输入,搜索会给出一个 power 用户可能要的结果。而需要一个普通的搜索结果,却要去做 power 用户的操作。

以上一些不成熟的看法,也可能有误漏之处,欢迎大家指出。

附件:新概念 4.md

nce4.md.zip

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    26416 引用 • 109881 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 搜索关键字空格分隔应该是 AND 逻辑,不是 OR,这个应该是符合预期的,是 SQLite FTS 的默认逻辑。

    不开启查询语法的时候特殊字符(比如一些符号)现在不用转义,直接搜索就行。

    目前不太好的体验感觉是:

    • 没有结果总数显示
    • 没有分页加载更多结果
    • 结果高亮片段不合理,造成 "more than" 例子里面看不到结果

    我们先记录高亮片段不合理的问题 Issue #5124 · siyuan-note/siyuan 谢谢

推荐标签 标签

  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    948 引用 • 1460 回帖
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖 • 2 关注
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 642 关注
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 656 关注
  • OnlyOffice
    4 引用 • 19 关注
  • OneNote
    1 引用 • 3 回帖
  • 创业

    你比 99% 的人都优秀么?

    81 引用 • 1395 回帖 • 1 关注
  • 设计模式

    设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。

    201 引用 • 120 回帖 • 3 关注
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    240 引用 • 224 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖
  • Sillot

    Insights(注意当前设置 master 为默认分支)

    汐洛彖夲肜矩阵(Sillot T☳Converbenk Matrix),致力于服务智慧新彖乄,具有彖乄驱动、极致优雅、开发者友好的特点。其中汐洛绞架(Sillot-Gibbet)基于自思源笔记(siyuan-note),前身是思源笔记汐洛版(更早是思源笔记汐洛分支),是智慧新录乄终端(多端融合,移动端优先)。

    主仓库地址:Hi-Windom/Sillot

    文档地址:sillot.db.sc.cn

    注意事项:

    1. ⚠️ 汐洛仍在早期开发阶段,尚不稳定
    2. ⚠️ 汐洛并非面向普通用户设计,使用前请了解风险
    3. ⚠️ 汐洛绞架基于思源笔记,开发者尽最大努力与思源笔记保持兼容,但无法实现 100% 兼容
    29 引用 • 25 回帖 • 135 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖
  • Windows

    Microsoft Windows 是美国微软公司研发的一套操作系统,它问世于 1985 年,起初仅仅是 Microsoft-DOS 模拟环境,后续的系统版本由于微软不断的更新升级,不但易用,也慢慢的成为家家户户人们最喜爱的操作系统。

    229 引用 • 476 回帖
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    91 引用 • 59 回帖 • 1 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    4 引用 • 7 回帖
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖 • 1 关注
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 37 关注
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    43 引用 • 44 回帖 • 1 关注
  • 印象笔记
    3 引用 • 16 回帖
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖
  • Anytype
    3 引用 • 31 回帖 • 28 关注
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖 • 1 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 371 关注
  • danl
    179 关注
  • AWS
    11 引用 • 28 回帖 • 6 关注
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    955 引用 • 944 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖