标签:RDD SparkStreaming 架构图 Streaming 概述 Spark DStream
SparkStreaming是什么?
Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。
它的这种输入->处理->输出模型可以类比RDD的计算模型;只不过,相比于RDD,它的数据源是实时的。
Spark Streaming使用离散化流(discretized stream)作为抽象表示,叫作DStream。DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在,而DStream是由这些RDD所组成的序列(因此得名“离散化”)。
SparkStreaming架构
架构图1
架构图2
1)数据流被接收器接收,封装成DStream,传递给driver;接收器是一个executor,是一个长期长期运行的线程。
2)driver把任务进行分解,分发给其他executor执行;底层还是利用SparkContext和RDD来实现的。
3)以批次为单位输出结果。
标签:RDD,SparkStreaming,架构图,Streaming,概述,Spark,DStream 来源: https://www.cnblogs.com/chxyshaodiao/p/12403688.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。