全文检索
全文检索的概念
索引文件是全文检索系统的主要构成部分(全文检索技术就是围绕着索引文件展开)。索引文件中的数据是有结构的,可以对文本数据做词,字,句,段的解析.索引文件是海量数据.
搜索引擎的结构(搜索系统)
- 信息采集:收集数据源的所有源数据进行大数据的存储工作
- 信息整理:源数据海量非结构化(网页),要经过整理的过程输出封装成(索引文件)
- 搜索服务:应用系统,提供客户使用,调用索引文件的数据返回查询的结果
Lucene
- lucene是一个开源的全文检索引擎工具包.早期全文检索所有的具体逻辑原理是通用,但是代码,工具需要自定义开发.Doug Cutting(hadoop)创世.极大提升了全文检索技术开发效率
- 特点
①:稳定,创建索引性能高(150GB/小时)
②:lucene基于java的技术,栈内存要求小1MB
③:增量索引和批量索引速度一样快
④:索引文件索引数据结构20%
⑤:支持多种主流搜索功能:短语,词项,多域,布尔,模糊,通配查询
标签:文件,索引,lucene,全文检索,搜索,数据 来源: https://blog.csdn.net/wyf_IT/article/details/99818884
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。