基于 Redis 的实时搜索

本贴最后更新于 3038 天前,其中的信息可能已经事过境迁

一直想把前期做的一种完全基于redis的实时搜索功能的实现方式总结一下,但是一直没有合适的时间,今天终于可以坐下来把整个思路理一下了。
还是先看下整体效果,如下图所示。

search

该搜索是整个瑞知社区的一个功能项,瑞知社区类似于知乎,一个垂直问答社区,为了提高用户体验,所以希望在搜索功能上可以体验更好,可以逐字匹配搜索,可以按照拼音(不是拼音首字母)模糊搜索。由于该项目没有考虑使用关系型数据库,所以决定把所有的索引数据都放在内存中,获取查找目标过程完全基于内存,这样速度更快。

下面说说整个过程的实现思路,还有很多不完善的地方,敬请指教!

搜索的过程简单点说就是建立索引和按照索引取值的过程,对需要搜索的目标数据进行索引,然后将索引结果放入redis中,索引结果的数据结构可以根据实际情况来决定,比如我这里没有用到关系数据库,全部使用的是redis来存储,包括搜索目标数据,所以索引的数据结构是搜索关键词作为key,value中存入的是搜索目标在redis中存入时的key值;如果你使用的关系型数据库,比如mysql,那么这里的value可能存的就是对应数据库中记录的id值。当用户输入关键词进行搜索的时候,首先会对用户输入的关键词进行分词,再根据分词结果查询索引,命中目标后,根据索引获取最终的查询目标数据。

以上就是整个搜索的大致流程,下面我们来把他剖开来分析,看看每个过程如何实现。 

建立普通关键词索引

当用户提出一个问题,或者回答问题时,系统都会实时的建立索引(这里可以考虑使用异步建立索引,因为查询新内容不是实时的),索引的数据结构为Sorted Set,score值全部设为1,这样索引排序时就可以按照字母表顺序自然排序。key为分词后的值(使用的分词器是lucene中的IKAnalyzer),value保存的是对应搜索目标实体redis中存储的key值;
如果同种类型的多个关键词分词后有重复的分词值,就将实体key值存在同一个分词集合中,如,某2个问题进行分词后,都包含【争夺】这个分词值,那么这2个问题的实体key值都会作为index:question:[争夺]的value值。如下图所示:

general

建立逐字匹配索引

对于逐字匹配搜索的需求,我们的索引在建立时,也需要区别对待,当我们输入关键词时,并不希望输入完整的关键词后才能检索出相关内容,而是输入部分关键词时立刻出现相关结果,也即是瞬时响应效果。如下图所示:

prefix

那就要求我们在建立索引时,需要对每个分词后的值再按字或者字母建立索引值,这种索引我们称之为逐字匹配索引,或者前缀匹配索引,用Sorted Set来存储(key为index:prefix:key),其值为分词按字截取后的值,存储时其score值设为相同值1,那么所有的值会按照字母表的顺序进行排列,这样就使得逐字匹配索引中相近分词值会集中排列;当你搜索关键词时会搜出一定范围内(该范围的值会直接影响性能)的所有相似索引值。前缀匹配索引数据结构如下图所示:

prefix00

对于中文,前缀匹配索引数据结构如下图所示

prefixcn

建立中文拼音索引

对于中文用户,希望通过汉语拼音直接搜索,那就需要在对中文分词结果索引的同时,进行汉语拼音的转译,然后将转译后的汉语拼音作为key值,所有同音词的中文分词都作为value,存储在set中,这种方式可以确保检索出汉语拼音对应的所有中文分词。数据结构如下图所示:

pinyin

从以上我们可以看出,在建立索引数据时,我们对同一个分词进行了三种索引。

搜索过程

当用户在输入每个关键词的每个字时,首先对输入的关键词进行分词操作,然后会同时检索前缀和中文拼音索引,获取该关键词以及相关类似的关键词,然后除掉重复的关键词,最后根据搜索目标的类型,构建【普通关键词索引】的key值,求并集获取结果。

我们以一个例子来说明整个过程,比如我们输入的关键词是“南京”,经过检索前缀和中文拼音索引后,返回的关键词如下图所示:

result00

然后根据搜索目标类型,构建的【普通关键词索引】的key值如下图所示:

result01

这样,就可以根据question类型的索引key值找到对应的question实体的对应key,求并集,最终返回json数据给前端即可。整个流程就是这样。
最终结果如下图所示:

result

关于分页

对于已经排好序的结果集,使用Sorted Set的zrevrange命令即可按照scrore的值逆序排序。

关于性能

性能方面,普通关键词索引+前缀匹配索引+拼音索引的总和为60万+,而所有问题和回答有100万+,在我的mbp(8g,core i7)上面搜索体验还是很流畅的 。

关于优化

在前缀匹配时,是根据指定获取一定范围内的相似结果,这个范围值对性能影响很大 ;

是不是需要对关键词同时建立三种索引 ;

在搜索的准确性上,需要对分词器进行优化 ;

灵活设定结果集的排序字段 。

  • 实时搜索
    1 引用 • 1 回帖
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    286 引用 • 248 回帖 • 44 关注
  • 索引
    24 引用 • 28 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • relyn

    能否提供相关的代码~~~最近刚好要做这块

推荐标签 标签

  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 216 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 1 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖 • 1 关注
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 5 关注
  • CodeMirror
    1 引用 • 2 回帖 • 129 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 5 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 591 关注
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    93 引用 • 899 回帖 • 3 关注
  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    166 引用 • 595 回帖
  • 博客

    记录并分享人生的经历。

    273 引用 • 2388 回帖 • 1 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 536 关注
  • QQ

    1999 年 2 月腾讯正式推出“腾讯 QQ”,在线用户由 1999 年的 2 人(马化腾和张志东)到现在已经发展到上亿用户了,在线人数超过一亿,是目前使用最广泛的聊天软件之一。

    45 引用 • 557 回帖 • 44 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    167 引用 • 1520 回帖 • 1 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    16 引用 • 130 回帖
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    76 引用 • 1737 回帖
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    343 引用 • 723 回帖
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    21 引用 • 37 回帖 • 548 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 6 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 106 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    943 引用 • 1460 回帖 • 3 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    132 引用 • 795 回帖
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 5 关注
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    91 引用 • 384 回帖 • 2 关注
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    139 引用 • 269 回帖 • 28 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 7 关注