[讨论] 关于英语词组、句子的搜索

本贴最后更新于 777 天前,其中的信息可能已经时移世异

这个话题想了很久,还是提一提,不求近期有改进,但希望在思源长期计划中有所考虑。

附件上传了新概念 4 的 md 文件,作为测试的材料,主题为默认主题。感兴趣的朋友可以导入一下进行搜索测试,或者测试一下自己现有的一些英语文本。

现有问题

现在的搜索方案使用了分词器(技术上不懂),中文搜索看介绍说比原来的方案更好(比如支持中文单字搜索)以及 query 语句等等。

但是这个方案的副作用就是,所有以空格区分单词界限的语言,英法德意西等等,两个词及以上的搜索体验很不乐观。

首先,不能以普通用户熟悉的一些很自然搜索方式进行搜索。比如,more than 这个词组,用 VSCode 搜索有 9 个结果。在思源笔记里,鼠标划选词组 more than 并按搜索快捷键,或者呼出搜索窗口在搜索框输入 other than,出来的结果是很多条 other 或 than 的结果。而且思源目前没有搜索结果总数,用户甚至都没法数出有多少结果。上述软件反馈在直觉上很不自然,搜索结果也不是用户想要的。(现有的搜索方案,空格表示条件“或”)如下图:

111.png

其次,即使点击“查询语法”,给关键字前后加半角双引号,搜索结果栏貌似正常,但是,结果栏可能无高亮,文档页面的高亮也可能不显示。搜索结果的数量方面,自己数了一下思源搜索栏是 8 个,在 VScode 中搜索发现某一段 more than 有两处,思源在搜索栏的结果显示为一条。如下图:

222.png

如果搜索的是句子(查询语法 + 双引号),高亮问题也非常干扰用户的注意力。如下图:

333.png

第三,如上所述,搜索窗口没有显示搜索结果,结果总数是否正确需要用户自己数或者太多没法数。同一段如果有多个关键字命中,思源显示的结果栏和结果总数就会有差异,这种情况下就更需要有一个搜索结果的数字显示。

相关影响

即便上面所说的查询语法 + 关键字引号的高亮问题、搜索数量显示问题解决了,从效率上看,现有搜索方案离最佳实践还有相当距离。毕竟用最自然的方式搜索是绝大多数人的日常操作,不太可能有很多用户高频次的使用查询语法、query 语句进行查询。

目前的搜索体验,往小了说,会影响所有西方语言(空格分词)学习者的搜索效率。关键词前后输入引号也差不多要用两秒吧,如果是输入法是中文状态还要切换一下到英文状态。除了效率问题。更大的问题是,用户在其它文字编辑软件搜索时都是很自然的搜索体验,但在目前的思源还要让用户增加心智负担,为了一个正常的搜索结果,甚至可能要去了解并不熟悉的“查询语法”。

往大了说,目前的搜索方案可能会影响思源的国际化。西方语言(空格分词)学习者的基本搜索操作也是西方国家普通用户的搜索日常,甚至他们的搜索行为还要复杂,比如有各种特殊字符及符号(之前一些用户也反馈过某些字符需要加双引号才能搜索正常)。这些国家的普通用户估计会很难理解、适应目前这种搜索方法和搜索结果的呈现方式。

一个好的搜索方案,应该是以自然的、有效率的方式照顾大多数普通用户。然后对一些 power 用户,通过点击特定按钮/图标的方式实现更高级的查询方式,比如一些知名文本编辑软件对普通文字搜索和正则表达式搜索的处理方式。

而思源现在的搜索方案,貌似是反过来了,普通情况的输入,搜索会给出一个 power 用户可能要的结果。而需要一个普通的搜索结果,却要去做 power 用户的操作。

以上一些不成熟的看法,也可能有误漏之处,欢迎大家指出。

附件:新概念 4.md

nce4.md.zip

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    20175 引用 • 77878 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 搜索关键字空格分隔应该是 AND 逻辑,不是 OR,这个应该是符合预期的,是 SQLite FTS 的默认逻辑。

    不开启查询语法的时候特殊字符(比如一些符号)现在不用转义,直接搜索就行。

    目前不太好的体验感觉是:

    • 没有结果总数显示
    • 没有分页加载更多结果
    • 结果高亮片段不合理,造成 "more than" 例子里面看不到结果

    我们先记录高亮片段不合理的问题 Issue #5124 · siyuan-note/siyuan 谢谢

推荐标签 标签

  • abitmean

    有点意思就行了

    39 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    25 引用 • 191 回帖 • 20 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 8 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 561 关注
  • 设计模式

    设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。

    198 引用 • 120 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    7030 引用 • 31782 回帖 • 219 关注
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    180 引用 • 400 回帖 • 1 关注
  • 智能合约

    智能合约(Smart contract)是一种旨在以信息化方式传播、验证或执行合同的计算机协议。智能合约允许在没有第三方的情况下进行可信交易,这些交易可追踪且不可逆转。智能合约概念于 1994 年由 Nick Szabo 首次提出。

    1 引用 • 11 回帖 • 9 关注
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    141 引用 • 441 回帖
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    138 引用 • 268 回帖 • 128 关注
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 623 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    124 引用 • 580 回帖 • 1 关注
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 557 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3169 引用 • 8208 回帖 • 2 关注
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖 • 1 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    207 引用 • 2031 回帖
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    148 引用 • 257 回帖
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    130 引用 • 793 回帖
  • 博客

    记录并分享人生的经历。

    272 引用 • 2386 回帖 • 1 关注
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 354 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 1 关注
  • Typecho

    Typecho 是一款博客程序,它在 GPLv2 许可证下发行,基于 PHP 构建,可以运行在各种平台上,支持多种数据库(MySQL、PostgreSQL、SQLite)。

    12 引用 • 60 回帖 • 464 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    4 引用 • 91 回帖
  • 支付宝

    支付宝是全球领先的独立第三方支付平台,致力于为广大用户提供安全快速的电子支付/网上支付/安全支付/手机支付体验,及转账收款/水电煤缴费/信用卡还款/AA 收款等生活服务应用。

    29 引用 • 347 回帖 • 1 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖
  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 52 关注