老司机带你 elasticsearch 安装中文分词器

发车

为什么要在 elasticsearch 中要使用 ik 这样的中文分词呢，那是因为 es 提供的分词是英文分词，对于中文的分词就做的非常不好了，因此我们需要一个中文分词器来用于搜索和使用。今天我们就尝试安装下 IK 分词。

上车

1、去 github 下载对应的分词插件
https://github.com/medcl/elasticsearch-analysis-ik/releases
根据不同版本下载不同的分词插件

2、到 es 的 plugins 目录创建文件夹
cd your-es-root/plugins/ && mkdir ik

3、解压 ik 分词插件到 ik 文件夹

unzip elasticsearch-analysis-ik-6.4.3.zip

第二种安装方法

还有一种方式直接通过 es 的命令进行安装，es 版本需要大于 5.5.1

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip

安装好后重启 es
会看到加载了 ik 分词了

到站

IK 分词器简介

1，Elasticsearch 中文分词我们采用 Ik 分词，ik 有两种分词模式，ik_max_word,和 ik_smart 模式;
- ik_max_word 和 ik_smart 什么区别?

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；
ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

索引时，为了提供索引的覆盖范围，通常会采用 ik_max_word 分析器，会以最细粒度分词索引，搜索时为了提高搜索准确度，会采用 ik_smart 分析器，会以粗粒度分词

实测

创建 index

curl -XPUT http://localhost:9200/index

创建 mapping

curl -XPOST http://localhost:9200/index/index_mapping -H 'Content-Type:application/json' -d' {
	"properties": {
		"content": {
			"type": "text",
			"analyzer": "ik_max_word",
			"search_analyzer": "ik_smart"
		}
	}
}'

添加几个数据

curl -XPOST http://localhost:9200/index/index/1 -H 'Content-Type:application/json' -d'  {"content":"美国留给伊拉克的是个烂摊子吗"}  '

curl -XPOST http://localhost:9200/index/index/3 -H 'Content-Type:application/json' -d'  {"content":"中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"}  '

curl -XPOST http://localhost:9200/index/index/4 -H 'Content-Type:application/json' -d'  {"content":"中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"}  '

进行查询

curl -XPOST http://localhost:9200/index/index/_search -H 'Content-Type:application/json' -d'  
{
	"query": {
		"match": {
			"content": "中国"
		}
	},
	"highlight": {
		"pre_tags": ["<tag1>", "<tag2>"],
		"post_tags": ["</tag1>", "</tag2>"],
		"fields": {
			"content": {}
		}
	}
}

查看效果

ES ILM 策略

[图片] Index Lifecycle Management（ILM）策略 Elasticsearch 可以通过 Index Lifecycle Management (ILM) 策略自动创建每日滚动索引。以下是一个创建每日滚动索引的示例，配合 ILM 策略可以让索引根据数据增长自动创建新的每日索引，并在数据老化时移 ..

2023-12-12 ES ILM

Index Lifecycle Management 索引生命周期管理 (ILM) 是在 Elasticsearch 6.6（公测版）首次引入并在 6.7 版正式推出的一项功能。ILM 是 Elasticsearch 的一部分，主要用来管理索引 [图片] 标记节点属性首先标记哪些节点是热节点、温节点和（可选）冷节点。 ..

Docker 安装 ElasticSearch 和 Kibana

一、前言本篇博客主要记录了我安装最新版的 ElasticSearch 和 Kibana 的过程。我的操作系统是 Arch Linux，使用 Docker 来安装，相较于 7.x 版本，8.x 版本增加了一些安全配置，安装过程会更复杂一些，所以写了这篇博客来记录一下，希望可以帮到有需要的朋友。二、安装配置 Elast ..

【一】技术探索：SpringBoot 与 Elasticsearch 完美融合，WebFlux 响应式编程实现

【其一】安装新版的 Elasticsearch(8.8.0)与 Kibana(8.8.0) 原文发布于：实战：SpringBoot 与 Elasticsearch 完美融合，WebFlux 响应式编程实现，欢迎使用 RSS 订阅获取最新更新。 1. 前言文章包含以下内容：安装新版的 Elasticsearch(8. ..

es-client

elasticsearch 查询客户端。 elasticsearch 的客户端比较出名的就是 elasticsearch head 和 Kibana 了，但是 elasticsearch head 已经停止更新，且样式老旧，功能不全；而 Kibana 虽功能全面，但是启动麻烦，大部分功能用不上，很不灵活，所以采用 ..

ES 数据库备份快照

背景：某客户 UCSS-HA+DB 高可用环境，由于事件和日志量非常大，预估 20G+，考虑到导出事件和日志备份有一定风险导出失败，故考虑该手工备份 ES 数据库相关表下述操作部署，为 3.10 db 高可用环境操作，参考文档：[链接] 登录 db-master 服务器，启用并配置 nfs 挂载信息说明：为什么要 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于