[讨论] 关于英语词组、句子的搜索

本贴最后更新于 929 天前,其中的信息可能已经时移世异

这个话题想了很久,还是提一提,不求近期有改进,但希望在思源长期计划中有所考虑。

附件上传了新概念 4 的 md 文件,作为测试的材料,主题为默认主题。感兴趣的朋友可以导入一下进行搜索测试,或者测试一下自己现有的一些英语文本。

现有问题

现在的搜索方案使用了分词器(技术上不懂),中文搜索看介绍说比原来的方案更好(比如支持中文单字搜索)以及 query 语句等等。

但是这个方案的副作用就是,所有以空格区分单词界限的语言,英法德意西等等,两个词及以上的搜索体验很不乐观。

首先,不能以普通用户熟悉的一些很自然搜索方式进行搜索。比如,more than 这个词组,用 VSCode 搜索有 9 个结果。在思源笔记里,鼠标划选词组 more than 并按搜索快捷键,或者呼出搜索窗口在搜索框输入 other than,出来的结果是很多条 other 或 than 的结果。而且思源目前没有搜索结果总数,用户甚至都没法数出有多少结果。上述软件反馈在直觉上很不自然,搜索结果也不是用户想要的。(现有的搜索方案,空格表示条件“或”)如下图:

111.png

其次,即使点击“查询语法”,给关键字前后加半角双引号,搜索结果栏貌似正常,但是,结果栏可能无高亮,文档页面的高亮也可能不显示。搜索结果的数量方面,自己数了一下思源搜索栏是 8 个,在 VScode 中搜索发现某一段 more than 有两处,思源在搜索栏的结果显示为一条。如下图:

222.png

如果搜索的是句子(查询语法 + 双引号),高亮问题也非常干扰用户的注意力。如下图:

333.png

第三,如上所述,搜索窗口没有显示搜索结果,结果总数是否正确需要用户自己数或者太多没法数。同一段如果有多个关键字命中,思源显示的结果栏和结果总数就会有差异,这种情况下就更需要有一个搜索结果的数字显示。

相关影响

即便上面所说的查询语法 + 关键字引号的高亮问题、搜索数量显示问题解决了,从效率上看,现有搜索方案离最佳实践还有相当距离。毕竟用最自然的方式搜索是绝大多数人的日常操作,不太可能有很多用户高频次的使用查询语法、query 语句进行查询。

目前的搜索体验,往小了说,会影响所有西方语言(空格分词)学习者的搜索效率。关键词前后输入引号也差不多要用两秒吧,如果是输入法是中文状态还要切换一下到英文状态。除了效率问题。更大的问题是,用户在其它文字编辑软件搜索时都是很自然的搜索体验,但在目前的思源还要让用户增加心智负担,为了一个正常的搜索结果,甚至可能要去了解并不熟悉的“查询语法”。

往大了说,目前的搜索方案可能会影响思源的国际化。西方语言(空格分词)学习者的基本搜索操作也是西方国家普通用户的搜索日常,甚至他们的搜索行为还要复杂,比如有各种特殊字符及符号(之前一些用户也反馈过某些字符需要加双引号才能搜索正常)。这些国家的普通用户估计会很难理解、适应目前这种搜索方法和搜索结果的呈现方式。

一个好的搜索方案,应该是以自然的、有效率的方式照顾大多数普通用户。然后对一些 power 用户,通过点击特定按钮/图标的方式实现更高级的查询方式,比如一些知名文本编辑软件对普通文字搜索和正则表达式搜索的处理方式。

而思源现在的搜索方案,貌似是反过来了,普通情况的输入,搜索会给出一个 power 用户可能要的结果。而需要一个普通的搜索结果,却要去做 power 用户的操作。

以上一些不成熟的看法,也可能有误漏之处,欢迎大家指出。

附件:新概念 4.md

nce4.md.zip

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    23020 引用 • 92608 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 搜索关键字空格分隔应该是 AND 逻辑,不是 OR,这个应该是符合预期的,是 SQLite FTS 的默认逻辑。

    不开启查询语法的时候特殊字符(比如一些符号)现在不用转义,直接搜索就行。

    目前不太好的体验感觉是:

    • 没有结果总数显示
    • 没有分页加载更多结果
    • 结果高亮片段不合理,造成 "more than" 例子里面看不到结果

    我们先记录高亮片段不合理的问题 Issue #5124 · siyuan-note/siyuan 谢谢

推荐标签 标签

  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    77 引用 • 430 回帖
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    334 引用 • 323 回帖 • 4 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    179 引用 • 407 回帖 • 490 关注
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 465 关注
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    17 引用 • 53 回帖 • 139 关注
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 637 关注
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖 • 3 关注
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    5 引用 • 26 回帖 • 528 关注
  • 导航

    各种网址链接、内容导航。

    42 引用 • 175 回帖
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖 • 1 关注
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 632 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 2 关注
  • NGINX

    NGINX 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 NGINX 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本 0.1.0 发布于 2004 年 10 月 4 日。

    313 引用 • 547 回帖
  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 63 关注
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    8 引用 • 26 回帖 • 1 关注
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖 • 1 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1706 回帖
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 316 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    170 引用 • 414 回帖 • 387 关注
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 626 关注
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 3 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 60 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖 • 1 关注
  • OpenStack

    OpenStack 是一个云操作系统,通过数据中心可控制大型的计算、存储、网络等资源池。所有的管理通过前端界面管理员就可以完成,同样也可以通过 Web 接口让最终用户部署资源。

    10 引用
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    53 引用 • 40 回帖 • 1 关注
  • 反馈

    Communication channel for makers and users.

    123 引用 • 913 回帖 • 250 关注