基于 Redis 的实时搜索

本贴最后更新于 3403 天前,其中的信息可能已经事过境迁

一直想把前期做的一种完全基于redis的实时搜索功能的实现方式总结一下,但是一直没有合适的时间,今天终于可以坐下来把整个思路理一下了。
还是先看下整体效果,如下图所示。

search

该搜索是整个瑞知社区的一个功能项,瑞知社区类似于知乎,一个垂直问答社区,为了提高用户体验,所以希望在搜索功能上可以体验更好,可以逐字匹配搜索,可以按照拼音(不是拼音首字母)模糊搜索。由于该项目没有考虑使用关系型数据库,所以决定把所有的索引数据都放在内存中,获取查找目标过程完全基于内存,这样速度更快。

下面说说整个过程的实现思路,还有很多不完善的地方,敬请指教!

搜索的过程简单点说就是建立索引和按照索引取值的过程,对需要搜索的目标数据进行索引,然后将索引结果放入redis中,索引结果的数据结构可以根据实际情况来决定,比如我这里没有用到关系数据库,全部使用的是redis来存储,包括搜索目标数据,所以索引的数据结构是搜索关键词作为key,value中存入的是搜索目标在redis中存入时的key值;如果你使用的关系型数据库,比如mysql,那么这里的value可能存的就是对应数据库中记录的id值。当用户输入关键词进行搜索的时候,首先会对用户输入的关键词进行分词,再根据分词结果查询索引,命中目标后,根据索引获取最终的查询目标数据。

以上就是整个搜索的大致流程,下面我们来把他剖开来分析,看看每个过程如何实现。 

建立普通关键词索引

当用户提出一个问题,或者回答问题时,系统都会实时的建立索引(这里可以考虑使用异步建立索引,因为查询新内容不是实时的),索引的数据结构为Sorted Set,score值全部设为1,这样索引排序时就可以按照字母表顺序自然排序。key为分词后的值(使用的分词器是lucene中的IKAnalyzer),value保存的是对应搜索目标实体redis中存储的key值;
如果同种类型的多个关键词分词后有重复的分词值,就将实体key值存在同一个分词集合中,如,某2个问题进行分词后,都包含【争夺】这个分词值,那么这2个问题的实体key值都会作为index:question:[争夺]的value值。如下图所示:

general

建立逐字匹配索引

对于逐字匹配搜索的需求,我们的索引在建立时,也需要区别对待,当我们输入关键词时,并不希望输入完整的关键词后才能检索出相关内容,而是输入部分关键词时立刻出现相关结果,也即是瞬时响应效果。如下图所示:

prefix

那就要求我们在建立索引时,需要对每个分词后的值再按字或者字母建立索引值,这种索引我们称之为逐字匹配索引,或者前缀匹配索引,用Sorted Set来存储(key为index:prefix:key),其值为分词按字截取后的值,存储时其score值设为相同值1,那么所有的值会按照字母表的顺序进行排列,这样就使得逐字匹配索引中相近分词值会集中排列;当你搜索关键词时会搜出一定范围内(该范围的值会直接影响性能)的所有相似索引值。前缀匹配索引数据结构如下图所示:

prefix00

对于中文,前缀匹配索引数据结构如下图所示

prefixcn

建立中文拼音索引

对于中文用户,希望通过汉语拼音直接搜索,那就需要在对中文分词结果索引的同时,进行汉语拼音的转译,然后将转译后的汉语拼音作为key值,所有同音词的中文分词都作为value,存储在set中,这种方式可以确保检索出汉语拼音对应的所有中文分词。数据结构如下图所示:

pinyin

从以上我们可以看出,在建立索引数据时,我们对同一个分词进行了三种索引。

搜索过程

当用户在输入每个关键词的每个字时,首先对输入的关键词进行分词操作,然后会同时检索前缀和中文拼音索引,获取该关键词以及相关类似的关键词,然后除掉重复的关键词,最后根据搜索目标的类型,构建【普通关键词索引】的key值,求并集获取结果。

我们以一个例子来说明整个过程,比如我们输入的关键词是“南京”,经过检索前缀和中文拼音索引后,返回的关键词如下图所示:

result00

然后根据搜索目标类型,构建的【普通关键词索引】的key值如下图所示:

result01

这样,就可以根据question类型的索引key值找到对应的question实体的对应key,求并集,最终返回json数据给前端即可。整个流程就是这样。
最终结果如下图所示:

result

关于分页

对于已经排好序的结果集,使用Sorted Set的zrevrange命令即可按照scrore的值逆序排序。

关于性能

性能方面,普通关键词索引+前缀匹配索引+拼音索引的总和为60万+,而所有问题和回答有100万+,在我的mbp(8g,core i7)上面搜索体验还是很流畅的 。

关于优化

在前缀匹配时,是根据指定获取一定范围内的相似结果,这个范围值对性能影响很大 ;

是不是需要对关键词同时建立三种索引 ;

在搜索的准确性上,需要对分词器进行优化 ;

灵活设定结果集的排序字段 。

  • 实时搜索
    1 引用 • 1 回帖
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    285 引用 • 248 回帖
  • 索引
    24 引用 • 28 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • relyn

    能否提供相关的代码~~~最近刚好要做这块

推荐标签 标签

  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    174 引用 • 414 回帖 • 344 关注
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    56 引用 • 85 回帖 • 1 关注
  • 音乐

    你听到信仰的声音了么?

    63 引用 • 513 回帖
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 236 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1062 引用 • 3456 回帖 • 124 关注
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 348 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 691 关注
  • Office

    Office 现已更名为 Microsoft 365. Microsoft 365 将高级 Office 应用(如 Word、Excel 和 PowerPoint)与 1 TB 的 OneDrive 云存储空间、高级安全性等结合在一起,可帮助你在任何设备上完成操作。

    6 引用 • 35 回帖
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 548 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    71 引用 • 535 回帖 • 847 关注
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    127 引用 • 169 回帖
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 284 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    950 引用 • 1460 回帖 • 2 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    188 引用 • 319 回帖 • 221 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖 • 1 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 686 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • Vditor

    Vditor 是一款浏览器端的 Markdown 编辑器,支持所见即所得、即时渲染(类似 Typora)和分屏预览模式。它使用 TypeScript 实现,支持原生 JavaScript、Vue、React 和 Angular。

    386 引用 • 1892 回帖
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 64 关注
  • 叶归
    25 引用 • 100 回帖 • 37 关注
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 667 关注
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 668 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 260 关注
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 184 关注
  • 千千插件

    千千块(自定义块 css 和 js)
    可以用 ai 提示词来无限创作思源笔记

    33 引用 • 69 回帖
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖 • 1 关注