一行命令让ElasticSearch支持中文分词搜索

相信大家在开发博客，在线商城的时候会涉及到搜索功能。而近几年火起来的 ElasticSearch（ES）凭借其稳定、可靠、快速的实时搜索普遍受到大家的好评，连 Github、SoundCloud 也都将 ES 作为其核心搜索组件。

但是 ES 本身对中文分词和搜索比较局限。因为内置的分析器在处理中文分词时，只有两种方式：一种是单字（unigrams）形式，即简单粗暴的将中文的每一个汉字作为一个词（token）分开；另一种是两字（bigrams）的，也就是任意相邻的两个汉字作为一个词分开。这两种方式都不能很好的满足现在的中文分词需求，进而影响了搜索结果。

举个例子：
假设我们的 index 里面存储了 3 篇 documents 如下：

id	content
1	美称中国武器商很神秘花巨资海外参展却一言不发
2	在第一界国际锦标赛中国家代表李雷勇夺冠军
3	国武公司近日上市

Case 1：查询“中国”，期望只得到 id 为 1 的 document。

用 unigram 的分析器（即默认的 Standard Analyzer）查询结果为 id 1 和 id 2 的 content；bigram 的分析器（名为 cjk）的结果为 id 1。Standard Analyzer 没有给出预期结果是因为它把“中国”切分为“中”、“国”2 个 token，因此误给出了 id 2 的结果。
Case 2：查询“国武”这一家公司，期望只得到 id 为 3 的 document。

Standard Analyzer 和 cjk 的查询结果都会同时给出 id 1 和 id 3 的 document，但是 id 1 的 document 中的“国武”并不是所指的公司。

（注：以上查询均用 query_string）

因此我们可以发现内置的分析器有它的局限性，并不能满足复杂或者特定的搜索需求。为此，玻森数据开发了一款基于玻森中文分词的 ES 插件（Elasticsearch-Analysis-BosonNLP），方便大家对中文数据进行更精确的搜索。

现在已有一些成熟的 ES 中文分词插件，但在分词引擎准确率上，相信 BosonNLP 的中文分词能满足大家不同领域上多样化的需求。有兴趣的朋友可以查看 11 款开放中文分词引擎大比拼。

接下来，3 分钟教会大家如何安装使用玻森 ES 中文分词插件 Beta 版（以 ES 2.2.0 版本为例）：

安装

只需如下一个命令。

$ sudo bin/plugin install https://github.com/bosondata/elasticsearch-analysis-bosonnlp/releases/download/1.3.0-beta/elasticsearch-analysis-bosonnlp-1.3.0-beta.zip

注：对于其他不同版本的 ES，只需要在命令里更换对应的插件版本号即可。

使用

需要在 elasticsearch.yml 文件中的 analyzer 里配置好玻森 bosonnlp analyzer（需要配置 API_TOKEN 以及分词的参数）。详情解释请查看 Github 上玻森 ES 中文分词的 README。

bosonnlp:
    type: bosonnlp
    API_URL: http://api.bosonnlp.com/tag/analysis
    API_TOKEN: *PUT YOUR API TOKEN HERE*

完成以上步骤之后便可以使用玻森 ES 分词插件了。

对比之前 Case 2 的查询：查询“国武”这一家公司，期望只得到 id 为 3 的 document。玻森 ES 分词插件搜索结果：

{
  "took" : 70,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "failed" : 0
  },
  "hits" : {
      "total" : 1,
      "max_score" : 0.15342641,
      "hits" : [ {
          "_index" : "bosonnlp_test",
          "_type" : "text",
          "_id" : "3",
          "_score" : 0.15342641,
          "_source":
{
    "content":"国武公司近日上市"
}
    } ]
  }
}

当然，如果对分词有特定需求的小伙伴可以在配置里修改对应的参数。目前，玻森数据对于中文分词提供了繁简转换、新词发现等功能，能满足不同领域的搜索需求。

希望这款插件能提升你的工作效率！

GitHub 上有具体的说明。这里附上例子中索引 document 的 bash 文件以方便测试。

玻森新闻自动摘要算法简介

自动摘要（或摘要技术 Automatic Summarization），顾名思义，是指从单篇或者多篇文章中，摘取要点来概括文章大意的技术。它在机器学习和数据挖掘中有着重要的地位。在这篇文章中，将要详细谈一谈自动摘要算法实现，以及玻森进行的优化。（对于自动摘要概念有兴趣想深入了解的读者可以自行搜索，该篇文章中在这方面不 ..

BosonNLP分词技术解密

在九月初 BosonNLP 全面开放了分词和词性标注引擎以后，很多尤其是从事数据处理和自然语言研究的朋友在试用后很好奇，玻森如何能够做到目前的高准确率？希望这篇文章能够帮助大家理解玻森分词背后的实现原理。众所周知，中文并不像英文那样词与词之间用空格隔开，因此，在一般情况下，中文分词与词性标注往往是中文自然语言处理的第 ..

开源中文分词引擎大比拼

在逐渐步入 DT（Data Technology）时代的今天，自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说，并没有类似英文空格的边界标志。而理解句子所包含的词语，则是理解汉语语句的第一步。汉语自动分词的任务，通俗地说，就是要由机器在文本中的词与词之间自动加上空格。一提到自动分词，通常会遇到两种比较典型的 ..

11 大 Java 开源中文分词器的使用方法和分词效果对比

本文的目标有两个： 1、学会使用 11 大 Java 开源中文分词器 2、对比分析 11 大 Java 开源中文分词器的分词效果本文给出了 11 大 Java 开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11 大 Java 开源中文分词器，不同的分词器有不同的 ..

10 个中文分词器（关键词提取）

[链接] [链接] [链接] [链接] [链接] [链接] [链接] 8、jieba分词器 9、stanford分词器 10、hanlp分词器中文分词器分词效果评估对比更多细节参考cws_evaluation项目主页个人比较倾向于word分词器和ansj分词器，个人感觉word分词器的分词效果比ansj的分词效果 ..

ES ILM 策略

[图片] Index Lifecycle Management（ILM）策略 Elasticsearch 可以通过 Index Lifecycle Management (ILM) 策略自动创建每日滚动索引。以下是一个创建每日滚动索引的示例，配合 ILM 策略可以让索引根据数据增长自动创建新的每日索引，并在数据老化时移 ..

2023-12-12 ES ILM

Index Lifecycle Management 索引生命周期管理 (ILM) 是在 Elasticsearch 6.6（公测版）首次引入并在 6.7 版正式推出的一项功能。ILM 是 Elasticsearch 的一部分，主要用来管理索引 [图片] 标记节点属性首先标记哪些节点是热节点、温节点和（可选）冷节点。 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

相关帖子

玻森新闻自动摘要算法简介

BosonNLP分词技术解密

开源中文分词引擎大比拼

11 大 Java 开源中文分词器的使用方法和分词效果对比

10 个中文分词器（关键词提取）

ES ILM 策略

2023-12-12 ES ILM

欢迎来到这里！

近期热议

推荐标签标签

最新标签

一行命令让ElasticSearch支持中文分词搜索

相关帖子

玻森新闻自动摘要算法简介

BosonNLP分词技术解密

开源中文分词引擎大比拼

11 大 Java 开源中文分词器的使用方法和分词效果对比

10 个中文分词器（关键词提取）

ES ILM 策略

2023-12-12 ES ILM

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签