ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

ElasticSearch 入门(三) ik分词器的安装以及使用

2021-06-07 14:58:56  阅读:227  来源: 互联网

标签:7.13 analysis maven ik elasticsearch 分词器 ElasticSearch


1ElasticSearch分词器

分词器(Analyzer) :将一段文本, 按照定逻辑,分析成多个词语的一种工具如:华为手机---> 华为、手、手机

  1. elasticSearch内置分词器
  2. standard Analyzer-默认分词器,按词切分,小写处理
  3. simple Analyzer -按照非字母切分(符号被过滤),小写处理
  4. stop Analyzer-小写处理,停用词过滤(the,a,is)
  5. whitespace Analyzer-按照空格切分,不转小写
  6. keyword Analyzer -不分词,直接将输入当作输出
  7. patter Analyzer-正则表达式,默认\W+ (非字符分割
  8. language -提供了30多种常见语言的分词器

ElasticSearch内置分词器对中文很不友好,处理方式为: 一个字一个词。

例如:

创建一组分词:GET IP+_analyze +json数据
http://111.230.182.125:9200/_analyze  json格式数据
{
	"analyzer": "standard",
	"text": "我爱北京天安门"
}

 

2.Ik分词器

2.1简介

  1. IKAnalyzer是一个 开源的,基于java语言开发的轻量级的中文分词工具包
  2. 是一个基于Maven构建的项目
  3. 具有60万字/秒的高速处理能力
  4. 支持用户词典扩展定义
  5. 下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases

2.2Maven安装

需要借助maven打包ik。所以需要在linux中下载maven

  1. 先设置JAVA_HOME (这里我没改。用的还是原来安装Java jdk的配置)
    1. vim /etc/profile
      #在profile文件末尾添加
      #java envir onment
      export JAVA_HOME=/opt/es/elasticsearch-7.13.1/jdk
      export PATH=$PATH:${JAVA_ HOME}/bin
      #保存退出后,重新加载profile
      source /etc/profile
  2. 下载maven:

    1. wget http://mirrors.hust.edu.cn/apache/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz
  3. 解压之后设置一个软连接(类型win上快捷键):
    1. ln -s apache-maven-3.5.4 maven =>(ln -s 原始文件名称  新访问名称)
  4. 设置path:
    1. 设置:  vim  /etc/profile 
      设置完毕之后刷新:source /etc/profile
      然后查看maven是否生效:mvn -v
    2. #/etc/profile中内容
      export M2_HOME=/opt/es/maven
      export PATH=${M2_HOME}/bin:${PATH}                                              
    3. 注意如果/etc/profile的path有多个变量 用:区分

2.3Ik安装

  1. 先去下载对应版本(和ElasticSerch版本一致):
    1. https://github.com/medcl/elasticsearch-analysis-ik/releases
  2. 移动解压到linux服务器上:tar -zxvf elasticsearch-analysis-ik-7.13.1.tar.gz
  3. 进入到ik文件中,然后进行打包 mvn package(打包完之后会有一个target文件) (打包之前先去pom.xml中查看打包的版本是否和elasticsearch版本一致)
  4. 切换到elasticSearch下的plugins目录下:
    1. cd /opt/es/elasticsearch-7.13.1/plugins/
  5. 新建一个目录放刚刚ik打包的文件。并且进入
    1. mkdir analysis-ik
  6. 将刚刚打包文件拷贝到这里、
    1. cp -r /opt/es/elasticsearch-analysis-ik-7.13.1/target/releases/elasticsearch-analysis-ik-7.13.1.zip /opt/es/elasticsearch-7.13.1/plugins/analysis-ik
    2. 然后解压 unzip elasticsearch-analysis-ik-7.13.1.zip (由于是zip压缩包,用unzip解压)
    3. 拷贝词典:将elasticsearch-analysis-ik-7.13.1目录下的config目录中的所有文件拷贝到elasticsearch的config目录
      1. cp /opt/es/elasticsearch-analysis-ik-7.13.1/config/* /opt/es/elasticsearch-7.13.1/config
    4. 重启 elasticsearch的bin文件夹下 ./elasticsearch

2.4ik分词器的使用

  • IK分词器有两种分词模式: ik_max_word和ik_smart模式。
  • ik_max_word:会将文本做最细粒度的拆分,比如会将”乒乓球明年总冠军”拆分为“乒乓球、乒乓、球、明年、总冠军、冠军。
  • ik_smart:会将文本做最粗粒度的拆分:比如会将”乒乓球明年总冠军”拆分为“乒乓球、明年、总冠军、”

标签:7.13,analysis,maven,ik,elasticsearch,分词器,ElasticSearch
来源: https://blog.csdn.net/qq_36215047/article/details/117660794

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有