基于 Redis 的实时搜索

本贴最后更新于 2918 天前,其中的信息可能已经事过境迁

一直想把前期做的一种完全基于redis的实时搜索功能的实现方式总结一下,但是一直没有合适的时间,今天终于可以坐下来把整个思路理一下了。
还是先看下整体效果,如下图所示。

search

该搜索是整个瑞知社区的一个功能项,瑞知社区类似于知乎,一个垂直问答社区,为了提高用户体验,所以希望在搜索功能上可以体验更好,可以逐字匹配搜索,可以按照拼音(不是拼音首字母)模糊搜索。由于该项目没有考虑使用关系型数据库,所以决定把所有的索引数据都放在内存中,获取查找目标过程完全基于内存,这样速度更快。

下面说说整个过程的实现思路,还有很多不完善的地方,敬请指教!

搜索的过程简单点说就是建立索引和按照索引取值的过程,对需要搜索的目标数据进行索引,然后将索引结果放入redis中,索引结果的数据结构可以根据实际情况来决定,比如我这里没有用到关系数据库,全部使用的是redis来存储,包括搜索目标数据,所以索引的数据结构是搜索关键词作为key,value中存入的是搜索目标在redis中存入时的key值;如果你使用的关系型数据库,比如mysql,那么这里的value可能存的就是对应数据库中记录的id值。当用户输入关键词进行搜索的时候,首先会对用户输入的关键词进行分词,再根据分词结果查询索引,命中目标后,根据索引获取最终的查询目标数据。

以上就是整个搜索的大致流程,下面我们来把他剖开来分析,看看每个过程如何实现。 

建立普通关键词索引

当用户提出一个问题,或者回答问题时,系统都会实时的建立索引(这里可以考虑使用异步建立索引,因为查询新内容不是实时的),索引的数据结构为Sorted Set,score值全部设为1,这样索引排序时就可以按照字母表顺序自然排序。key为分词后的值(使用的分词器是lucene中的IKAnalyzer),value保存的是对应搜索目标实体redis中存储的key值;
如果同种类型的多个关键词分词后有重复的分词值,就将实体key值存在同一个分词集合中,如,某2个问题进行分词后,都包含【争夺】这个分词值,那么这2个问题的实体key值都会作为index:question:[争夺]的value值。如下图所示:

general

建立逐字匹配索引

对于逐字匹配搜索的需求,我们的索引在建立时,也需要区别对待,当我们输入关键词时,并不希望输入完整的关键词后才能检索出相关内容,而是输入部分关键词时立刻出现相关结果,也即是瞬时响应效果。如下图所示:

prefix

那就要求我们在建立索引时,需要对每个分词后的值再按字或者字母建立索引值,这种索引我们称之为逐字匹配索引,或者前缀匹配索引,用Sorted Set来存储(key为index:prefix:key),其值为分词按字截取后的值,存储时其score值设为相同值1,那么所有的值会按照字母表的顺序进行排列,这样就使得逐字匹配索引中相近分词值会集中排列;当你搜索关键词时会搜出一定范围内(该范围的值会直接影响性能)的所有相似索引值。前缀匹配索引数据结构如下图所示:

prefix00

对于中文,前缀匹配索引数据结构如下图所示

prefixcn

建立中文拼音索引

对于中文用户,希望通过汉语拼音直接搜索,那就需要在对中文分词结果索引的同时,进行汉语拼音的转译,然后将转译后的汉语拼音作为key值,所有同音词的中文分词都作为value,存储在set中,这种方式可以确保检索出汉语拼音对应的所有中文分词。数据结构如下图所示:

pinyin

从以上我们可以看出,在建立索引数据时,我们对同一个分词进行了三种索引。

搜索过程

当用户在输入每个关键词的每个字时,首先对输入的关键词进行分词操作,然后会同时检索前缀和中文拼音索引,获取该关键词以及相关类似的关键词,然后除掉重复的关键词,最后根据搜索目标的类型,构建【普通关键词索引】的key值,求并集获取结果。

我们以一个例子来说明整个过程,比如我们输入的关键词是“南京”,经过检索前缀和中文拼音索引后,返回的关键词如下图所示:

result00

然后根据搜索目标类型,构建的【普通关键词索引】的key值如下图所示:

result01

这样,就可以根据question类型的索引key值找到对应的question实体的对应key,求并集,最终返回json数据给前端即可。整个流程就是这样。
最终结果如下图所示:

result

关于分页

对于已经排好序的结果集,使用Sorted Set的zrevrange命令即可按照scrore的值逆序排序。

关于性能

性能方面,普通关键词索引+前缀匹配索引+拼音索引的总和为60万+,而所有问题和回答有100万+,在我的mbp(8g,core i7)上面搜索体验还是很流畅的 。

关于优化

在前缀匹配时,是根据指定获取一定范围内的相似结果,这个范围值对性能影响很大 ;

是不是需要对关键词同时建立三种索引 ;

在搜索的准确性上,需要对分词器进行优化 ;

灵活设定结果集的排序字段 。

  • 实时搜索
    1 引用 • 1 回帖
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    285 引用 • 248 回帖 • 105 关注
  • 索引
    23 引用 • 28 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • relyn

    能否提供相关的代码~~~最近刚好要做这块

推荐标签 标签

  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 10 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    25 引用 • 191 回帖 • 21 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    131 引用 • 1114 回帖 • 136 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 2 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    45 引用 • 25 回帖 • 2 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖 • 1 关注
  • PWL

    组织简介

    用爱发电 (Programming With Love) 是一个以开源精神为核心的民间开源爱好者技术组织,“用爱发电”象征开源与贡献精神,加入组织,代表你将遵守组织的“个人开源爱好者”的各项条款。申请加入:用爱发电组织邀请帖
    用爱发电组织官网:https://programmingwithlove.stackoverflow.wiki/

    用爱发电组织的核心驱动力:

    • 遵守开源守则,体现开源&贡献精神:以分享为目的,拒绝非法牟利。
    • 自我保护:使用适当的 License 保护自己的原创作品。
    • 尊重他人:不以各种理由、各种漏洞进行未经允许的抄袭、散播、洩露;以礼相待,尊重所有对社区做出贡献的开发者;通过他人的分享习得知识,要留下足迹,表示感谢。
    • 热爱编程、热爱学习:加入组织,热爱编程是首当其要的。我们欢迎热爱讨论、分享、提问的朋友,也同样欢迎默默成就的朋友。
    • 倾听:正确并恳切对待、处理问题与建议,及时修复开源项目的 Bug ,及时与反馈者沟通。不抬杠、不无视、不辱骂。
    • 平视:不诋毁、轻视、嘲讽其他开发者,主动提出建议、施以帮助,以和谐为本。只要他人肯努力,你也可能会被昔日小看的人所超越,所以请保持谦虚。
    • 乐观且活跃:你的努力决定了你的高度。不要放弃,多年后回头俯瞰,才会发现自己已经成就往日所仰望的水平。积极地将项目开源,帮助他人学习、改进,自己也会获得相应的提升、成就与成就感。
    1 引用 • 487 回帖
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    287 引用 • 4484 回帖 • 660 关注
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 53 关注
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 115 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    497 引用 • 1386 回帖 • 324 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖 • 3 关注
  • Kubernetes

    Kubernetes 是 Google 开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。

    109 引用 • 54 回帖
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    19 引用 • 31 回帖
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖 • 1 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    54 引用 • 85 回帖
  • Electron

    Electron 基于 Chromium 和 Node.js,让你可以使用 HTML、CSS 和 JavaScript 构建应用。它是一个由 GitHub 及众多贡献者组成的活跃社区共同维护的开源项目,兼容 Mac、Windows 和 Linux,它构建的应用可在这三个操作系统上面运行。

    15 引用 • 136 回帖 • 10 关注
  • Shell

    Shell 脚本与 Windows/Dos 下的批处理相似,也就是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的。但是它比 Windows 下的批处理更强大,比用其他编程程序编辑的程序效率更高,因为它使用了 Linux/Unix 下的命令。

    122 引用 • 73 回帖
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 83 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    546 引用 • 3531 回帖 • 1 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 519 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    124 引用 • 580 回帖
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 565 关注