文本相似性热度统计方案(python版)

2020-09-17 18:52:23 阅读：273 来源： 互联网

1. 场景描述

背景不写了，只谈技术，做的是文本相似性统计，因需要从文本描述性信息中分析同类信息，以便后续重点关注，数据量比较大，大概20多万，人工效率低，需要算法来实现。

根据需求要从不同维度进行统计：

（1）分组不分句热度统计（根据某列首先进行分组，然后再对描述类列进行相似性统计）；
（2）分组分句热度统计（根据某列首先进行分组，然后对描述类列按照标点符号进行拆分，然后再对这些句进行热度统计）;
（3）整句及分句热度统计；（对描述类列/按标点符号进行分句，进行热度统计）
（4）热词统计（对描述类类进行热词统计，反馈改方式做不不大）

2. 解决方案

在网上以及和同事都验证了很多不同实现方案，具体过程就不说了，对比下来，jieba+gensim效果最好。

算法实现介绍：

（1）输入文件是excel，数据大概20多万，首先通过pandas获取excel信息，通过jieba分词进行处理，jieba分词要首先自定义词典以及排除信息，这样效果会差异很大，然后形成一个二维数组。
（2）使用gensim 中的corpora模块，将分词形成后的二维数组生成词典
（3）将二维数组通过doc2bow稀疏向量，形成语料库
（4）刚开始使用TF模型算法，后来更改为：LsiModel模型算法，将语料库计算出Tfidf值。
（5）获取词典token2id的特征数
（6）计算稀疏矩阵相似度，建立一个索引
（7）读取excel行数据，通过jieba进行分词处理
（8）通过doc2bow计算测试数据的稀疏向量
（9）求得测试数据与样本数据的相似度

如果你觉得文章对你有些帮助，欢迎微信搜索「软件老王」第一时间阅读或交流！

算法说明：

（1）这里有个点，7-9步会循环执行，针对文档描述列中的每一行，会与在第六步中创建的索引就行比对，会统计与该行相似性超过50%的行数据，同时会将统计到的数据增加个数组中，后续不再执行比对，以免重复统计。
（2）第一步jieba算法中会用到专业术语词典及stop词典等，7-9部会循环执行，目前相似度阈值设置的为：50%，另外excel操作就不多说了（增加了汇总起来清单的超链，可以导航到清单）
（3）效率上，20多万的数据，因需要转换向量，大概需要20来分钟。
（4）大的算法发是这样的，下一篇再开始上代码，针对不同需求，进行介绍。

欢迎关注原创微信公众号「软件老王」，分享一些软件技术、软件行业和好玩的事，里面还有免费分享的java书籍、百万张高清可商用图片、月薪“20k”的面试题等，回复关键字就能自动获取。
文本相似性热度统计方案(python版)

标签：jieba,热度,20,python,算法,分句,相似性,文本,统计
来源： https://blog.51cto.com/14130291/2534692

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

文本相似性热度统计方案(python版)

1. 场景描述

2. 解决方案