ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Lucene中的token和term的区别

2021-12-27 22:34:20  阅读:152  来源: 互联网

标签:Term Token Lucene token term tokenStream 分词


Term是一个最小搜索单元,Lucene中有个Term和对应的TermQuery;Token应该是分词过程中记录一些分词信息的对象。

Token类的说明是这样的

 

简单的翻译下:token由字段文本的term产生,包含term的内容,起始,结束位移和类型字符串。

起始和结束偏移能够通过原来的text,连接起来,用于高亮或者匹配文本段等。

type是一个字符串,被词语解析器指定,命名了token属于的词语类型,例如,在一个句子的结尾,token使用“eos”类型实现,缺省的token类型是word。

从Lucene2.9开始,Token这个类就不建议使用了,推荐使用Attributes的实现类代替。尽管token不在使用,但是可以使用TokenStream API可以轻松实现所有的Attribute。

新版取得分词信息方式如下:

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_47);

String text = "利用 Lucene 进行搜索就像建立索引一样也是非常方便的。";

TokenStream tokenStream = analyzer.tokenStream("keyword",text);
tokenStream.reset();
whiel(tokenStream.incrementToken(){
    CharTermAttribute charTermAttribute = tokenStream.getAttribute(CharTermAttribute.class);
}

Term的注释是这样的

 

Term表示文本中的一个词语,是搜索单元,它由两个元素组成,词语的内容和文本所在的field(域),Term不仅仅表示字符串词语,还可以代表日期,邮件地址,或者url。

总结一下:

Term用于查询,下面就是一个query。

Term query = new Term("keyword","Lucene");

Token是在分词过程中产生的对象。

 

标签:Term,Token,Lucene,token,term,tokenStream,分词
来源: https://www.cnblogs.com/kevin-lee123/p/15738167.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有