标签:学习 RDD 分片 集合 Spark 数据 partitions
一、RDD是什么
RDD,全称为 Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。
RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。这些确定性操作称之为转换,如map、filter、groupBy、join(转换不是程开发人员在RDD上执行的操作)
RDD 还提供了诸如 join、groupBy、reduceByKey 等更为方便的操作(注意,reduceByKey 是 action,而非 transformation),以支持常见的数据运算。
二、RDD性质
一个RDD是一个不可变化的分布式集合对象
Spark中所有的计算都是通过RDDs的创建、转换、操作完成的
一个RDD内部有许多的partitions(分片)组成的
三、partitions(分片)
每个分片包括一部分数据,partitions可在集群不同节点上计算
分片是Spark并行处理的单元,Spark顺序的,并行的处理分片
四、RDD的创建方法
1、把一个存在的集合传给SparkContext的parallelize()方法,一般是在测试的时候用
val rdd = sc.parallelize(Array(1,2,4,5),4)
参数 1: 待并行处理的数据集合; 参数 2: 分区个数。 代码如下:
2、加载外部数据集
val rddText = sc.textEdit()
3、
<style></style> <style></style>标签:学习,RDD,分片,集合,Spark,数据,partitions 来源: https://www.cnblogs.com/Lyh1997/p/11171111.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。