ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

五、RDD操作综合实例

2022-04-07 21:02:38  阅读:147  来源: 互联网

标签:CountVectorizer Word2Vec IDF RDD 实例 词频 TF 操作 向量


A.分步骤实现

1.准备文本文件

2.读文件

3.分词

4.排除大小写lower(),map()

 

 标点符号re.split(pattern,str),flatMap()

 

 停用词,可网盘下载stopwords.txt,filter()

 

 

 

 长度小于2的词filter()

5.统计

映射成键值对

6.排序

7.写文件

 

8.查看文件

 

 

 

 B.一句话实现

文件入文件出

 

 

 C.和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点

spark中特征提取中包含四个方法:TF-IDF、Word2Vec、CountVectorizer以及FeatureHasher。其中,TF-IDF以及Word2Vec的使用比较广泛,这里不详细展开,TF-IDF主要用于提取文档的关键词,而Word2Vec将词语或者文章转换为词向量,通过空间距离表示文档的相似度,距离越近则越相似,其中一篇文章的词向量是文章所有词语词向量的平均值,所以使用Word2Vec尽量使用关键词转换词向量。CountVectorizer与TF相似,输出词频向量,但是CountVectorizer是可逆的,而TF是不可逆的,也就是说,CountVectorizer可以通过词频向量的索引找到对应的单词,而TF则不可以。所以在使用spark做关键词提取时,通常使用CountVectorizer和IDF,而如果只需要文档关键词的特征向量的话,则使用TF和IDF。

 

 

二、求TOP值

 

 

标签:CountVectorizer,Word2Vec,IDF,RDD,实例,词频,TF,操作,向量
来源: https://www.cnblogs.com/lyuc/p/16071598.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有