Streaming

Flink通过异步IO实现redis维表join2021-03-15 15:02:15

Flink通过异步IO实现redis维表join 浪尖浪尖聊大数据使用flink做实时数仓的公司越来越多了，浪尖这边也是很早就开发了一个flink 全sql平台来实现实时数仓的功能。说到实时数仓，两个表的概念大家一定会知道的：事实表和维表。在实时输出中，事实表就是flink消费的kafka的topic数据流，而
spark面试该准备点啥2021-03-15 13:51:48

spark面试该准备点啥浪尖浪尖聊大数据最近很多球友都说在准备面试，不知道准备点啥，尤其是spark，实际上星球里浪尖分享的内容真的都掌握了，应对一般面试绝对没问题，但是遗憾的事情是很多人都是处于不会主动搜集资料，主动梳理知识，主动记忆整理知识，而是伸手要粮的境地。浪尖觉得这个是
spark streaming窗口及聚合操作后如何管理offset2021-03-15 07:01:34

spark streaming窗口及聚合操作后如何管理offset 浪院长浪尖聊大数据很多知识星球球友问过浪尖一个问题：就是spark streaming经过窗口的集合操作之后，再去管理offset呢？对于spark streaming来说窗口操作之后，是无法管理offset的，因为offset的存储于HasOffsetRanges，只有kafkaRDD
spark streaming窗口及聚合操作后如何管理offset2021-03-15 07:01:23

spark streaming窗口及聚合操作后如何管理offset 浪院长浪尖聊大数据很多知识星球球友问过浪尖一个问题：就是spark streaming经过窗口的集合操作之后，再去管理offset呢？对于spark streaming来说窗口操作之后，是无法管理offset的，因为offset的存储于HasOffsetRanges，只有kafkaRDD
01 Spark架构与运行流程2021-03-14 17:33:34

1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系，为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础，它是一个高度容错的系统，能检测和应对硬件故障，在低成本的通用硬件上运行。 HBase构建在HDFS之上的分布式，面向列的NoSQL数据库。HBase中保存
Spark架构与运行流程2021-03-13 23:33:18

1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系，为什么要引入Yarn和Spark。 HDFS, MapReduce, Yarn, Hbase及Spark的相互关系如图所示：从图中可以看出Hadoop的核心是HDFS和MapReduce，HBase、yarn、hive和spark都是在HDFS的基础上操作的。其中yarn是
Spark Streaming实时流处理项目实战(七)Spark Streaming入门2021-03-08 20:29:54

Spark Streaming入门概述应用场景集成Spark生态系统的使用Spark Streaming发展史词频统计概述 Spark Streaming是核心Spark API的扩展，可实现实时数据流的可伸缩，高吞吐量，容错流处理。数据可以从像卡夫卡，室壁运动，或TCP套接字许多来源摄入，并且可以使用与像高级别功能表达
第1年3月3日 safari支持视频协议2021-03-03 12:02:10

1. Specifying Multiple Delivery Schemes You can also use multiple source elements to specify different delivery schemes. Let’s say you have a large real-time video streaming service that uses RTSP streaming, and you want to add support for Safari on iOS,
Spark学习笔记总汇目录2021-02-19 17:35:38

Spark学习笔记总汇目录 spark学习笔记一、什么是Spark？二、Spark的体系结构与安装部署三、执行Spark Demo程序四、Spark运行机制及原理分析五、Spark的算子六、Spark RDD的高级算子七、Spark基础编程案例 Spark SQL学习笔记一、Spark SQL基础二、使用数据源三、性能优化
初始Spark2021-02-05 11:01:28

参考网址：https://www.cnblogs.com/qingyunzong/p/8886338.html Spark是基于内存的计算框架 1.为什么要学习Spark? 可以解决迭代计算，融入hadoop生态圈，弥补mr计算框架的不足 2.特点 (1)speed 速度快基于内存计算，使用有向无环图(DAG)程序调度，查询优化器，物理执行器。速度比mr快100倍
Flink实例（120）：flink-sql使用（二十六）一文了解基于Flink构建流批一体数仓的技术点（三）2021-01-26 14:02:43

来源：https://mp.weixin.qq.com/s/ECe_bn9HzFzXTlfEnAaLBg 3 Flink读写Hive 3.1 Flink写入Hive表 Flink支持以**批处理(Batch)和流处理(Streaming)**的方式写入Hive表。当以批处理的方式写入Hive表时，只有当写入作业结束时，才可以看到写入的数据。批处理的方式写入支持append模式和o
Structured Streaming编程练习-日志分析2021-01-25 17:34:18

Syslog日志内一般包括产生日志的时间、主机名、程序模块、进程名、进程ID、严重性和日志内容。日志一般会通过Kafka等有容错保障的源发送，本实验为了简化，直接将Syslog通过Socket源发送。新建一个终端，执行如下命令：$tail -n+1 -f /var/log/syslog | nc -lk 9988“tail -n+1 -f /var/
spark学习进度28（SparkStreaming）2021-01-17 22:03:48

SparkStreaming Spark Streaming 的特点特点说明 Spark Streaming 是 Spark Core API 的扩展 Spark Streaming 具有类似 RDD 的 API, 易于使用, 并可和现有系统共用相似代码一个非常重要的特点是, Spark Streaming 可以在流上使用基于 Spa
Spark Streaming的Batch Duration优化2021-01-14 13:34:52

Spark Streaming 是微批处理。 SparkConf sparkConf = new SparkConf().setAppName("SparkStreaming").setMaster("local[*]"); JavaStreamingContext javaStreamingContext = new JavaStreamingContext(sparkConf, Durations.seconds(1000)); Durations.sec
Spark Streaming 性能调优2021-01-14 13:34:12

目录 1、合理的批次处理时间 2、合理的kafka拉取数据 3、缓存反复使用的Dstream(RDD) 4、其他一些优化策略 5、结果 1、合理的批次处理时间关于Spark Streaming的批处理时间设置是非常重要的，Spark Streaming在不断接收数据的同时，需要处理数据的时间，所以如果设置过段的批处理时间
spark streaming之 windowDuration、slideDuration、batchDuration2021-01-14 13:32:03

spark streaming 不同于sotm，是一种准实时处理系统。storm 中，把批处理看错是时间教程的实时处理。而在spark streaming中，则反过来，把实时处理看作为时间极小的批处理。 1、三个时间参数 spark streaming 中有三个关于时间的参数，分别如下：窗口时间windowDuration：当前窗口要统计多长
Spark Streaming处理Flume数据练习2021-01-12 16:37:17

把Flume Source（netcat类型），从终端上不断给Flume Source发送消息，Flume把消息汇集到Sink（avro类型），由Sink把消息推送给Spark Streaming并处理后输出版本信息：spark2.4.0 Flume 1.7.0 （基于pyspark）一、Flume安装 ①、文件导入 # 将apache-flume-1.7.0-bin.tar.gz解压到/usr/local目录
Spark Streaming 消费kafka数据，并手动维护offset2021-01-11 10:02:11

1.简介本文基于redis和mysql分别实现手动维护消费kafka的offset。 2.代码实现 2.1基于redis import java.util import com.bigdata.analysis.travel.RedisUtil import org.apache.kafka.common.TopicPartition import org.apache.spark.streaming.kafka010.OffsetRange imp
Flink和Spark的不同2021-01-07 16:04:47

一，Flink是真正的流处理，延迟在毫秒级，Spark Streaming是微批，延迟在秒级。 flink可以做到来一条处理一条，spark Streaming只能采用微批次二，Flink可以处理事件时间，而Spark Streaming只能处理机器时间，无法保证时间语义的正确性。 flink三种时间语义，因此有水位线的概念：事件时间event
Spark Streaming2021-01-05 20:33:05

Spark Streaming 　　Spark Streaming 是基于spark的流式批处理引擎，其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。 Spark Streaming入门小程序第一步: 在Linux上执行以下命令安装socket客户端工具，模拟发送数据:　　yum -
【Spark】（五）Spark Streaming 之 DStream 转换与输出2021-01-04 20:03:26

一、DStream 转换 DStream 上的操作与 RDD 的类似，分为 Transformations（转换）和 Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种 Window 相关的原语。 1、无状态转化操作无状态转化操作就是把简单的 RDD 转化操作
Nginx+FFmpeg 海康、大华NVR实现rtsp转flv实时预览+录像回放2021-01-04 16:01:25

工具准备FFmpeg，推流工具Nginx，要想实现Flv还需要安装模块nginx-http-flv-module，这个模块需要编译，如果是linux环境很方便，如果是windows环境，对不起，超级麻烦，网上也有教程，太复杂了，还好有网友提供了编译好的版本，csdn上下载，要币才能下载，求助万能的淘宝花了5毛钱下载。Flv.js，网页播放所
大数据——Scala和Java实现Spark Streaming实时流监控、Spark Streaming搭配Kafka Stream联用和Spark Streaming自定义采集器2020-12-27 10:31:07

Scala和Java实现SparkStreaming Spark Streaming实时流监控端口数据进行WordCountScala版本实现Spark StreamingJava版本实现SparkStreaming Spark Streaming实时流监控文件夹数据进行WordCountSpark Streaming和Kafka Stream联用不显示输出过的结果显示输出过的结果自定
Spark Streaming简介及运用(含案例)2020-12-24 15:03:48

目录 1、简介2、应用示例案例一：采集端口数据实现wordcount(Scala版本）案例二：采集端口数据实现wordcount(Java版本)案例三：采集目录下的文件数据实现wordcount案例四：采集Kafka数据实现wordcount案例五：自定义采集器 1、简介 Spark Streaming是Spark核心API的一个扩展，可以实

首页 < 4 5 6 7 8 > 尾页

ICode9

Flink通过异步IO实现redis维表join2021-03-15 15:02:15

spark面试该准备点啥2021-03-15 13:51:48

spark streaming窗口及聚合操作后如何管理offset2021-03-15 07:01:34

spark streaming窗口及聚合操作后如何管理offset2021-03-15 07:01:23

01 Spark架构与运行流程2021-03-14 17:33:34

Spark架构与运行流程2021-03-13 23:33:18

Spark Streaming实时流处理项目实战(七)Spark Streaming入门2021-03-08 20:29:54

第1年3月3日 safari支持视频协议2021-03-03 12:02:10

Spark学习笔记总汇目录2021-02-19 17:35:38

初始Spark2021-02-05 11:01:28

Flink实例（120）：flink-sql使用（二十六）一文了解基于Flink构建流批一体数仓的技术点（三）2021-01-26 14:02:43

Structured Streaming编程练习-日志分析2021-01-25 17:34:18

spark学习进度28（SparkStreaming）2021-01-17 22:03:48

Spark Streaming的Batch Duration优化2021-01-14 13:34:52

Spark Streaming 性能调优2021-01-14 13:34:12

spark streaming之 windowDuration、slideDuration、batchDuration​2021-01-14 13:32:03

Spark Streaming处理Flume数据练习2021-01-12 16:37:17

Spark Streaming 消费kafka数据，并手动维护offset2021-01-11 10:02:11

Flink和Spark的不同2021-01-07 16:04:47

Spark Streaming2021-01-05 20:33:05

【Spark】（五）Spark Streaming 之 DStream 转换与输出2021-01-04 20:03:26

Nginx+FFmpeg 海康、大华NVR实现rtsp转flv实时预览+录像回放2021-01-04 16:01:25

大数据——Scala和Java实现Spark Streaming实时流监控、Spark Streaming搭配Kafka Stream联用和Spark Streaming自定义采集器2020-12-27 10:31:07

Spark Streaming简介及运用(含案例)2020-12-24 15:03:48

spark streaming之 windowDuration、slideDuration、batchDuration2021-01-14 13:32:03