[讨论] 关于英语词组、句子的搜索

本贴最后更新于 898 天前,其中的信息可能已经时移世异

这个话题想了很久,还是提一提,不求近期有改进,但希望在思源长期计划中有所考虑。

附件上传了新概念 4 的 md 文件,作为测试的材料,主题为默认主题。感兴趣的朋友可以导入一下进行搜索测试,或者测试一下自己现有的一些英语文本。

现有问题

现在的搜索方案使用了分词器(技术上不懂),中文搜索看介绍说比原来的方案更好(比如支持中文单字搜索)以及 query 语句等等。

但是这个方案的副作用就是,所有以空格区分单词界限的语言,英法德意西等等,两个词及以上的搜索体验很不乐观。

首先,不能以普通用户熟悉的一些很自然搜索方式进行搜索。比如,more than 这个词组,用 VSCode 搜索有 9 个结果。在思源笔记里,鼠标划选词组 more than 并按搜索快捷键,或者呼出搜索窗口在搜索框输入 other than,出来的结果是很多条 other 或 than 的结果。而且思源目前没有搜索结果总数,用户甚至都没法数出有多少结果。上述软件反馈在直觉上很不自然,搜索结果也不是用户想要的。(现有的搜索方案,空格表示条件“或”)如下图:

111.png

其次,即使点击“查询语法”,给关键字前后加半角双引号,搜索结果栏貌似正常,但是,结果栏可能无高亮,文档页面的高亮也可能不显示。搜索结果的数量方面,自己数了一下思源搜索栏是 8 个,在 VScode 中搜索发现某一段 more than 有两处,思源在搜索栏的结果显示为一条。如下图:

222.png

如果搜索的是句子(查询语法 + 双引号),高亮问题也非常干扰用户的注意力。如下图:

333.png

第三,如上所述,搜索窗口没有显示搜索结果,结果总数是否正确需要用户自己数或者太多没法数。同一段如果有多个关键字命中,思源显示的结果栏和结果总数就会有差异,这种情况下就更需要有一个搜索结果的数字显示。

相关影响

即便上面所说的查询语法 + 关键字引号的高亮问题、搜索数量显示问题解决了,从效率上看,现有搜索方案离最佳实践还有相当距离。毕竟用最自然的方式搜索是绝大多数人的日常操作,不太可能有很多用户高频次的使用查询语法、query 语句进行查询。

目前的搜索体验,往小了说,会影响所有西方语言(空格分词)学习者的搜索效率。关键词前后输入引号也差不多要用两秒吧,如果是输入法是中文状态还要切换一下到英文状态。除了效率问题。更大的问题是,用户在其它文字编辑软件搜索时都是很自然的搜索体验,但在目前的思源还要让用户增加心智负担,为了一个正常的搜索结果,甚至可能要去了解并不熟悉的“查询语法”。

往大了说,目前的搜索方案可能会影响思源的国际化。西方语言(空格分词)学习者的基本搜索操作也是西方国家普通用户的搜索日常,甚至他们的搜索行为还要复杂,比如有各种特殊字符及符号(之前一些用户也反馈过某些字符需要加双引号才能搜索正常)。这些国家的普通用户估计会很难理解、适应目前这种搜索方法和搜索结果的呈现方式。

一个好的搜索方案,应该是以自然的、有效率的方式照顾大多数普通用户。然后对一些 power 用户,通过点击特定按钮/图标的方式实现更高级的查询方式,比如一些知名文本编辑软件对普通文字搜索和正则表达式搜索的处理方式。

而思源现在的搜索方案,貌似是反过来了,普通情况的输入,搜索会给出一个 power 用户可能要的结果。而需要一个普通的搜索结果,却要去做 power 用户的操作。

以上一些不成熟的看法,也可能有误漏之处,欢迎大家指出。

附件:新概念 4.md

nce4.md.zip

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    22353 引用 • 89444 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 搜索关键字空格分隔应该是 AND 逻辑,不是 OR,这个应该是符合预期的,是 SQLite FTS 的默认逻辑。

    不开启查询语法的时候特殊字符(比如一些符号)现在不用转义,直接搜索就行。

    目前不太好的体验感觉是:

    • 没有结果总数显示
    • 没有分页加载更多结果
    • 结果高亮片段不合理,造成 "more than" 例子里面看不到结果

    我们先记录高亮片段不合理的问题 Issue #5124 · siyuan-note/siyuan 谢谢

推荐标签 标签

  • Ant-Design

    Ant Design 是服务于企业级产品的设计体系,基于确定和自然的设计价值观上的模块化解决方案,让设计者和开发者专注于更好的用户体验。

    17 引用 • 23 回帖
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    342 引用 • 708 回帖
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖 • 4 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3453 回帖 • 203 关注
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 680 关注
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 94 关注
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖 • 1 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    5 引用 • 7 回帖
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    32 引用 • 131 回帖 • 1 关注
  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 64 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 73 关注
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 462 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 4 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    286 引用 • 248 回帖 • 61 关注
  • 反馈

    Communication channel for makers and users.

    123 引用 • 911 回帖 • 245 关注
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    62 引用 • 289 回帖 • 1 关注
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 49 关注
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 30 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 764 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 355 关注
  • GraphQL

    GraphQL 是一个用于 API 的查询语言,是一个使用基于类型系统来执行查询的服务端运行时(类型系统由你的数据定义)。GraphQL 并没有和任何特定数据库或者存储引擎绑定,而是依靠你现有的代码和数据支撑。

    4 引用 • 3 回帖 • 9 关注
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 638 关注
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖 • 1 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    247 引用 • 1348 回帖
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 1 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    36 引用 • 35 回帖 • 1 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 328 关注