标签:1.1 创建 分区 介绍 计算 spark stage
1.RDD
1.1 定义
1.1.1 数据集:存储数据得计算逻辑
1.1.2 分布式:数据的来源,计算,数据的存储
1.1.3 弹性:
血缘(依赖关系):SPARK可以通过特殊的处理方案简化依赖关系
计算:spark的计算基于内存的,所以性能特别高,可以和磁盘灵活切换
分区:spark在创建默认分区后,可以通过指定的算子来改变分区数量
容错:spark在执行计算时,如果发生了错误,需要进行容错重试处理
1.1.4 数量
Executor:可以通过提交应用的参数进行设定
partition:默认情况下,读取文件采用的是hadoop切片规则
如果是读取内存中的数据,可以根据特定的算法进行设定
可以通过其他算子改变
多个stage的场合,下一个stage的分区数取决于上一个stage最后的分区数,但是可以在相应的算子中进行修改
stage:1(resultStage)+shuffle(shuffleMapSatge)
划分阶段的目的就是为了任务执行的等待,因为shuffle的过程需要落盘
task:原则上一个分区一个任务
2.创建
2.1 从内存中创建
2.2 从存储(文件)创建
2.3 从其他rdd创建
3.属性
3.1 分区
3.2 依赖关系
3.3 分区器
3.4 优先位置
3.5 计算函数
4.使用
4.1 转换
单value
双value:两个rdd
k-v类型
4.2 行动:runJob
标签:1.1,创建,分区,介绍,计算,spark,stage 来源: https://www.cnblogs.com/hapyygril/p/13786494.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。
