ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

IK分词器使用自定义词库

2022-08-17 14:32:28  阅读:173  来源: 互联网

标签:end CN 自定义词 IK 听的歌 start ik 分词器 offset


IK分词器,支持两种算法。分别为:

  • ik_smart :最少切分
  • ik_max_word :最细粒度切分

但是我们想要“最好听的歌”为一个完整的词,但是结果并没有,这个时候需要我们去词库添加这个词。

1.在es的插件目录中,我们添加了IK分词器,在分词器目录下,有个config目录,

/plugins/ik/config

在congif中,添加一个mydic.dic的文件,名字随意,后缀为dic;

2.在mydic.dic文件中添加词汇:

最好听的歌

3.保存后,修改在ik/config目录的IKAnalyzer.cfg.xml文,内容:

4.重启es;如果是es集群,每个节点都需要改;

测试下:

ik_smart:

{
	"analyzer":"ik_smart",
	"text":"最好听的歌"	
}
输出:
{
    "tokens": [
        {
            "token": "最好听的歌",
            "start_offset": 0,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 0
        }
    ]
}

ik_max_word:

{
	"analyzer":"ik_max_word",
	"text":"最好听的歌"	
}
输出:
{
    "tokens": [
        {
            "token": "最好听的歌",
            "start_offset": 0,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "最好",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "好听",
            "start_offset": 1,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "听的歌",
            "start_offset": 2,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 3
        }
    ]
}

标签:end,CN,自定义词,IK,听的歌,start,ik,分词器,offset
来源: https://www.cnblogs.com/xudong5273/p/16595049.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有