Streaming

大数据实时处理--架构分析2021-10-14 10:32:33

Spark是一个实时处理框架 Spark提供了两套实施解决方案：Spark Streaming（SS）、Structured Streaming（SSS）然后再结合其它框架：Kafka、HBase、Flume、Redis 项目流程：架构分析、数据产生、数据采集、数据收集、数据实时交换、实时流处理、结果可视化、调优 1）【项目启动】架构分析 2
DStream以及基本工作原理2021-09-28 11:32:25

Spark Streaming基本工作原理 Spark Streaming内部的基本工作原理如下：接收实时输入数据流，然后将数据拆分成多个batch，比如每收集1秒的数据封装为一个batch，然后将每个batch交给Spark的计算引擎进行处理，最后会生产出一个结果数据流，其中的数据，也是由一个一个的batch所组成的。 DStrea
Streaming Systems (三)2021-09-28 10:00:54

到目前为止，我们一直在从pipeline开发者的角度研究流处理，第二章介绍了watermarks，回答了计算什么时间范围内的数据以及什么时候将处理结果物化等基本问题。在本章中，我们将从流处理系统的底层机制的角度来看同样的问题。研究这些机制将帮助我们理解和应用有关watermarks的概念。我们
Spark Streaming -Apache Flink bilibili 实时平台的架构与实践2021-09-27 15:02:11

简介：本文由 bilibili 大数据实时平台负责人郑志升分享，基于对 bilibili 实时计算的痛点分析，详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面：实时计算的痛点、Saber 的平台演进、结合 AI 的案例实践、未来的发展与思考。摘要：本文由 bilibili 大
大数据学习（29）—— Spark Streaming2021-09-26 12:33:27

Spark提供了DataFrame和DataSet API来处理批量数据，它们把数据转换成RDD，在内存中以迭代器的方式不落盘处理，所以效率很高。但它有一个弊端，就是不能准实时计算数据变化。为了解决上述问题，Spark引入了Spark Stream来处理准流式数据。为啥说准流式呢？因为它本质上还是批处理，只不过这个
小白学spark日记——idea中用Spark Stuctured Streaming出现的问题2021-09-14 16:33:39

问题一： Spark Stuctured Streaming没有指定运行地点，则认为是在本地虚拟机上运行，但配置文件中为hdfs两者冲突，需要配置问题二： Hadoop权限问题：添加：
UE4 Pixel Streaming像素推流云端部署方案2021-09-05 20:00:04

[适用于4.24之后版本] 本文介绍适用于普通WEB云端部署，非GPU云按照循序渐进方式，分为五个部分局域网单实例局域网多实例广域网部署WEB云部署后续 1、局域网单实例局域网单实例构架图信令服务器帮助用户浏览器与UE4 Pixel Streaming插件之间建立直接的像素流通讯服务，在同
CDH 提交任务(Flink)2021-09-03 18:33:26

运行命令 /bin/flink run -t yarn-per-job --detached ./examples/streaming/TopSpeedWindowing.jar 1、错误解决方案：调节yarn的yarn.scheduler.maximum-allocation-mb和yarn.nodemanager.resource.memory-mb
structed streaming 触发器trigger2021-08-30 15:32:33

structed streaming的执行批次，较spark streaming有所改变。更加灵活。总结下来，可大白话地分为三类: 1尽可能快的执行，不定时间 2按固定间隔时间执行 3仅执行一次详情如下： Trigger类型使用注意 Interval micro-batch(固定间隔的微批) Trigger.ProcessingTime(long inter
No module named 'pyspark.streaming.kafka'2021-08-24 12:03:05

一、问题描述 spark版本：2.4.7 pyspark版本：3.1.1 直接使用from pyspark.streaming.kafka import KafkaUtils会提示这个错误。二、解决方法 1、使用新的api https://stackoverflow.com/questions/61891762/spark-3-x-integration-with-kafka-in-python https://spark.apache.org/do
flink DataStream API（二）执行模型2021-08-18 18:57:44

文章目录执行模式（批处理/流处理）什么时候可以/应该使用 BATCH 执行模式？配置BATCH执行模式Execution Behavior（执行行为）任务调度和网络shuffle流执行模式批执行模式状态后端/状态Order of Processing(处理顺序)Event Time / Watermarks(时间时间 / 水印)Processing Time(处理
[SAA + SAP] 23. Streaming Atchitectures2021-08-07 16:35:30

Kinesis Analytics can be Data streams and Firehose as input And Analytics can use Data stream and Firehose as output FIrehose can use S3 to store data so that itself has not data storage, cannot replay data DyanmoDB is near 50 times more expensive than
spark streaming 12021-07-25 17:01:57

package com.shujia.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streaming.{Durations, StreamingContext} object Demo1WordCount { def main(args: Array
spark streaming 2 streaming on RDD2021-07-25 17:00:49

package com.shujia.spark.streaming import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.streaming.dstream.ReceiverInputDStream import org.apache.spark.streaming.{Durations, Stream
spark streaming 3 RDD To DS2021-07-25 17:00:06

package com.shujia.spark.streaming import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSession import org.apache.spark.streaming.{Durations, StreamingContext} import org.apache.spark.streaming.dstream.{DS
9次Java面试经验总结，图文详解！2021-07-14 15:57:53

一、对Kafka的认识 1.Kafka的基本概念 2.安装与配置 3.生产与消费 4.服务端参数配置二、生产者 1.客户端开发 2.原理分析 3.重要的生产者参数三、消费者 1.消费者与消费组 2.客户端开发四、主题与分区 1.主题的管理 2.初识KafkaAdminCilent 3.分区的管理 4.如何选
谷歌流计算论文streaming 102: 批处理之上的世界（二）2021-07-13 19:02:11

上一篇文章介绍了流式处理的基本概念，并提出了窗口的概念的由来——即为了将无限数据切分为有限来处理。这篇文章主要通过以下四个问题逐渐勾勒出流式处理的计算框架： What: 要计算什么结果？——转换（transform）Where: 在哪个位置计算结果？——窗口（window）When: 在处理时间的哪个时
实时流计算Spark Streaming原理介绍2021-07-11 15:00:54

1、Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、joi
开源至上：华为4面技术5面HR2021-07-09 21:02:46

一、对Kafka的认识 1.Kafka的基本概念 2.安装与配置 3.生产与消费 4.服务端参数配置二、生产者 1.客户端开发 2.原理分析 3.重要的生产者参数三、消费者 1.消费者与消费组 2.客户端开发四、主题与分区 1.主题的管理 2.初识KafkaAdminCilent 3.分区的管理 4.如何选
Java面试总结，复盘上次Redis缓存雪崩事故2021-07-08 21:35:17

一、对Kafka的认识 1.Kafka的基本概念 2.安装与配置 3.生产与消费 4.服务端参数配置二、生产者 1.客户端开发必要的参数配置消息的发送序列化分区器生产者拦截器 2.原理分析整体架构元数据的更新 3.重要的生产者参数三、消费者 1.消费者与消费组 2.客户端开发必
Flink实战(八) - Streaming Connectors 编程2021-07-07 16:07:33

1 概览 1.1 预定义的源和接收器 Flink内置了一些基本数据源和接收器，并且始终可用。该预定义的数据源包括文件，目录和插socket，并从集合和迭代器摄取数据。该预定义的数据接收器支持写入文件和标准输入输出及socket。 1.2 绑定连接器连接器提供用于与各种第三
Flink实战(八) - Streaming Connectors 编程2021-07-07 16:07:03

1 概览 1.1 预定义的源和接收器 Flink内置了一些基本数据源和接收器，并且始终可用。该预定义的数据源包括文件，目录和插socket，并从集合和迭代器摄取数据。该预定义的数据接收器支持写入文件和标准输入输出及socket。 1.2 绑定连接器连接器提供用于与各种第三方系统连接的代码。
195 Spark Streaming整合Kafka完成网站点击流实时统计2021-07-07 10:57:46

1.安装并配置zk 2.安装并配置Kafka 3.启动zk 4.启动Kafka 5.创建topic bin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,node2.itcast.cn:2181 \ --replication-factor 3 --partitions 3 --topic urlcount 6.编写Spark Streaming应用程序 package cn.itcast.spa
194 Spark Streaming实现实时WordCount2021-07-07 10:56:56

架构图： 1.安装并启动生成者首先在一台Linux（ip：192.168.10.101）上用YUM安装nc工具 yum install -y nc 启动一个服务端并监听9999端口 nc -lk 9999 2.编写Spark Streaming程序 package cn.itcast.spark.streaming import cn.itcast.spark.util.LoggerLevel import org.apache.spark
193 DStream相关操作 - Output Operations on DStreams2021-07-07 10:55:58

Output Operations可以将DStream的数据输出到外部的数据库或文件系统，当某个Output Operations原语被调用时（与RDD的Action相同），streaming程序才会开始真正的计算过程。 Output Operation Meaning print() Prints the first ten elements of every batch of data in a DStream on the

首页 < 1 2 3 4 5 6 7 8 > 尾页

ICode9

大数据实时处理--架构分析2021-10-14 10:32:33

DStream以及基本工作原理2021-09-28 11:32:25

Streaming Systems (三)2021-09-28 10:00:54

Spark Streaming -Apache Flink bilibili 实时平台的架构与实践2021-09-27 15:02:11

大数据学习（29）—— Spark Streaming2021-09-26 12:33:27

小白学spark日记——idea中用Spark Stuctured Streaming出现的问题2021-09-14 16:33:39

UE4 Pixel Streaming像素推流云端部署方案2021-09-05 20:00:04

CDH 提交任务(Flink)2021-09-03 18:33:26

structed streaming 触发器trigger2021-08-30 15:32:33

No module named 'pyspark.streaming.kafka'2021-08-24 12:03:05

flink DataStream API（二）执行模型2021-08-18 18:57:44

[SAA + SAP] 23. Streaming Atchitectures2021-08-07 16:35:30

spark streaming 12021-07-25 17:01:57

spark streaming 2 streaming on RDD2021-07-25 17:00:49

spark streaming 3 RDD To DS2021-07-25 17:00:06

9次Java面试经验总结，图文详解！2021-07-14 15:57:53

谷歌流计算论文streaming 102: 批处理之上的世界（二）2021-07-13 19:02:11

实时流计算Spark Streaming原理介绍2021-07-11 15:00:54

开源至上：华为4面技术5面HR2021-07-09 21:02:46

Java面试总结，复盘上次Redis缓存雪崩事故2021-07-08 21:35:17

Flink实战(八) - Streaming Connectors 编程2021-07-07 16:07:33

Flink实战(八) - Streaming Connectors 编程2021-07-07 16:07:03

195 Spark Streaming整合Kafka完成网站点击流实时统计2021-07-07 10:57:46

194 Spark Streaming实现实时WordCount2021-07-07 10:56:56

193 DStream相关操作 - Output Operations on DStreams2021-07-07 10:55:58