标签:stream 分词 Lucene 分词器 addAttribute class 单元
一、分词器的核心类1.Analyzer分词器 SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyser、StandardAnalyser2.TokenStream 分词器做好处理之后得到的一个流,这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元。3.Tokenizer 主要负责接收Reader字符流,将Reader进行分词操作,有如下一些实现类。
4.TokenFilter 将分词的语汇单元,进行各种各样的过滤
生成的流程
在这个流中,存储的数据有这些东西:
二、Attribute类
//前三个很重要!
PositionIncrementAttribute pia = stream.addAttribute(PositionIncrementAttribute.class);
//位置增量的属性,存储语汇单元之间的距离(可做同义词)
OffsetAttribute oa = stream.addAttribute(OffsetAttribute.class);
//每个语汇单元的位置偏移量
CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
//存储每一个分词的单元信息
TypeAttribute ta = stream.addAttribute(TypeAttribute.class);
//分词器的类型信息
三、自定义分词器标签:stream,分词,Lucene,分词器,addAttribute,class,单元 来源: https://www.cnblogs.com/nuistjungu/p/13975808.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。