sparkStreaming

sparkstreaming转换算子--窗口函数2022-09-02 13:01:06

window 画图理解说明 countByWindow 对每个滑动窗口的数据执行count操作 reduceByWindow 对每个滑动窗口的数据执行reduce操作 reduceByKeyAndWindow 对每个滑动窗口的数据执行reduceByKey操作 countByValueAndWindow 对每个滑动窗口的数据执行countByValue操作都需要传入两个
SparkStreaming整合Kafka2022-06-10 12:34:10

intellij代码实现Spark Stream和Kafka结合消息接收及处理StreamKaf StreamKafkaProducer1 package org.hnsw import java.util import org.apache.kafka.clients.consumer.ConsumerConfig import org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerR
Flink-初识(特点、与sparkstreaming的比较)2022-05-18 22:04:03

1.初识 Flink 起源于 Stratosphere 项目，Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目，2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会，参加这个孵化项目的初始成员是Stratosph
SparkStreaming2022-03-03 17:33:54

自定义采集器 package com.gazikel.streamaing import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.dstream.ReceiverInputDStream import org.apache.spark.streaming.{Seconds, StreamingContext} import org
SparkStreaming2021-11-23 14:33:39

1、SparkStreaming概述数据处理类型分类静态数据数据源是不变的、有限的、显式离散的多适用于批量计算、离线计算流数据数据是变动的、无限的、连续的多适用于实时计算，能在秒级、秒内处理完成实时数据分类小时级分钟级秒级sparkstreaming是
sparkstreaming2021-10-19 11:02:48

SparkStreaming+Kafka流程: 流式数据-->Flume-->Kafka-->SparkStreaming/StructStreaming/Flink-->Redis/Hbase/HDFS/Mysql 连接Kafka方式: Direct Approach(No Receivers): 1.KafkaUtils.createDirectStream直连方式,Streaming中每批次的每个job直接调用Simple Consumer A
Flume+Kafka+SparkStreaming打造实时流处理框架2021-08-17 16:31:07

Flume+Kafka+SparkStreaming打造实时流处理框架 1-1 实时流处理产生背景时效性高，数据量大 1-2 实时流处理概述实时计算（秒,毫秒级别）流式计算（在不断产生的实时数据流计算）7*24 1-3 离线计算与实时计算的对比 1-3-1 数据来源离线：HDFS,历史数据，数据量比较大实时：消息队列（kafka）实
【转载】【必会】SparkStreaming的窗口操作及实战2021-07-21 19:00:53

Window Operations（窗口操作）可以设置窗口大小和滑动窗口间隔来动态的获取当前Streaming的状态。基于窗口的操作会在一个比 StreamingContext 的 batchDuration（批次间隔）更长的时间范围内，通过整合多个批次的结果，计算出整个窗口的结果。下面，通过一张图来描述SparkStreaming的窗口操
sparkStreaming2021-07-02 12:32:29

import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}// 创建一个本地模式的StreamingContext, 两个工作线程， 1s的批处理间隔//Master要求2个核，以防出现饥饿情况object Socket { def main(args: Array[String]): Unit = {// Spa
一文告诉你SparkStreaming如何整合Kafka!2021-06-01 17:54:51

关于SparkStreaming从理论到实战的部分，博主已经在前面的博客中介绍了。本篇博客，为大家带来的是SparkStreaming整合Kafka的教程! 文章目录 Kafka回顾整合kafka两种模式说明 1.Receiver接收方式： 2.Direct直连方式 spark-streaming-kafka-0-8(了解) 1.Receiver 2
春城无处不飞花，小白带你侃SparkStreaming(实战应用篇)2021-06-01 17:54:29

自上一篇《春城无处不飞花，小白带你侃SparkStreaming(原理引入篇)》结束之后，博主就一直在酝酿着下一篇怎么开始，这不，忙了几天终于也有了下文。码字不易，先赞后看，养成习惯! 文章目录第三章 Spark Streaming实战 3.1 WordCount 3.1.1. 需求&准备
春城无处不飞花，小白带你侃SparkStreaming(原理引入篇)2021-06-01 17:54:10

介绍完了SparkSQL，接下来让我们推开SparkStreaming的大门，接收新知识的洗礼。跟刚入坑SparkSQL时一样，让我们来回顾一下Spark的内置模块。相信勤奋好学的大家肯定都还记得的对吧，那么接下来我们就要正式开始学习SparkStreaming咯~
PySpark之SparkStreaming基本操作2021-05-11 15:57:15

PySpark之SparkStreaming基本操作前言流数据具有如下特征： •数据快速持续到达，潜在大小也许是无穷无尽的 •数据来源众多，格式复杂 •数据量大，但是不十分关注存储，一旦经过处理，要么被丢弃，要么被归档存储 •注重数据的整体价值，不过分关注个别数据 •数据顺序颠倒，或者不完整，系统
sparkstreaming对接kafka数据，在idea程序上出现警告信息并卡住不动的解决办法2021-05-02 17:30:58

spark jira 用中文的同学看了我笑了，牛啊 Unexpected delay before fetch response transmission Details Type:Bug Status:Open Priority: Major Resolution: Unresolved Affects Version/s: 0.9.0.0, 0.9.0.1, 0.10.0.0, (3) 0.10.0.1, 0.10.1.0, 0.10.1.1 Fix Version/s:
Sparkstreaming的整合和其他一些知识点2021-04-28 19:01:29

flume与spark的整合 flume作为日志实时采集的框架，可以与SparkStreaming实时处理框架进行对接，flume实时产生数据，sparkStreaming做实时处理。 Spark Streaming对接FlumeNG有两种方式，一种是FlumeNG将消息Push推给Spark Streaming，还有一种是Spark Streaming从flume 中Poll拉取数
7.分布式计算平台Spark：Streaming2021-03-20 22:32:27

分布式计算平台Spark：Streaming 一、重点离线案例工作中开发代码流程或者方式 SparkCore + SparkSQL：熟悉代码开发 DSL：when（条件，成立的返回值）.otherwise（不成立的返回值） SQL：with 别名 as (SQL) select * from 别名工具类补充：配置文件解析、IP解析工具类流式计
必会:关于SparkStreaming checkpoint那些事儿2021-03-18 19:51:26

必会:关于SparkStreaming checkpoint那些事儿浪尖浪尖聊大数据 spark Streaming的checkpoint是一个利器，帮助在driver端非代码逻辑错误导致的driver应用失败重启，比如网络，jvm等，当然也仅限于支持自动重启的集群管理器，比如yarn。由于checkpoint信息包含序列化的Scala / Java / Pyt
SparkStreaming源码阅读思路2021-03-18 16:02:57

SparkStreaming源码阅读思路浪尖浪尖聊大数据 SparkStreaming的DirectAPI源码阅读思路 Spark Streaming的流式处理，尤其和kafka的集合，应该是企业应用的关键技术点，作为spark学习和工作者，要熟练的掌握其中原理，精读源码，才能更好的完成任务和相关工调优工作内容。对其原理简介，浪尖不
SparkStreaming如何解决小文件问题2021-03-18 16:02:40

SparkStreaming如何解决小文件问题火星浪尖聊大数据使用sparkstreaming时，如果实时计算结果要写入到HDFS，那么不可避免的会遇到一个问题，那就是在默认情况下会产生非常多的小文件，这是由sparkstreaming的微批处理模式和DStream(RDD)的分布式(partition)特性导致的，sparkstreaming为
Kafka+SparkStreaming+Mysql实践2021-02-24 16:59:13

1 场景描述 1.1需求描述：教学平台产品需要实时更新具体课程浏览量。 1.2数据处理：埋点数据到达kafka以后、流计算根据主键更新mysql的数据。 1.3工程结构图 2 主代码 package RealOnline import java.sql.{DriverManager, ResultSet} import com.alibaba.fastjson.JSON impo
SparkStreaming整合SparkSql2021-02-09 16:04:55

SparkStreaming整合SparkSql的程序中spark的重要对象创建的顺序可能会导致程序报错。可按照 sparkConf、SparkContext、StreamingContext、SparkSession的顺序。 //TODO 1、创建ssc对象 val conf = new SparkConf().setAppName("BoxLogStreamingDeal").setMaster("y
Sparkstreaming2021-02-04 12:59:32

一、Spark Streaming处理框架： Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据，可以使用诸如map、reduce、join等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，处理结果保存到HDFS，数据库等。二、SparkStreaming实时任务如何开发？ 1. 数据的
SparkStreaming的DStream转换操作2021-01-29 22:32:24

SparkStreaming的DStream转换操作 DStream上的操作与RDD的类似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种Window相关的原语。一、状态概述状态： state，指保存数据的对象有状态的
SparkStreaming Kafka 维护offset2021-01-20 19:03:42

文章目录 Kafka itself own data store for MySql own data store for Redis 生产SparkStreaming数据零丢失实验 SparkStreaming Kafka 维护offset 官网有三种实现方式 Checkpoints Kafka itself Your own data store 这里第一种方式不推荐使用，这里只介绍后面两种方式 Kafka i
spark学习进度28（SparkStreaming）2021-01-17 22:03:48

SparkStreaming Spark Streaming 的特点特点说明 Spark Streaming 是 Spark Core API 的扩展 Spark Streaming 具有类似 RDD 的 API, 易于使用, 并可和现有系统共用相似代码一个非常重要的特点是, Spark Streaming 可以在流上使用基于 Spa

1 2 3 > 尾页

ICode9

sparkstreaming转换算子--窗口函数2022-09-02 13:01:06

SparkStreaming整合Kafka2022-06-10 12:34:10

Flink-初识(特点、与sparkstreaming的比较)2022-05-18 22:04:03

SparkStreaming2022-03-03 17:33:54

SparkStreaming2021-11-23 14:33:39

sparkstreaming2021-10-19 11:02:48

Flume+Kafka+SparkStreaming打造实时流处理框架2021-08-17 16:31:07

【转载】【必会】SparkStreaming的窗口操作及实战2021-07-21 19:00:53

sparkStreaming2021-07-02 12:32:29

一文告诉你SparkStreaming如何整合Kafka!2021-06-01 17:54:51

春城无处不飞花，小白带你侃SparkStreaming(实战应用篇)2021-06-01 17:54:29

春城无处不飞花，小白带你侃SparkStreaming(原理引入篇)2021-06-01 17:54:10

PySpark之SparkStreaming基本操作2021-05-11 15:57:15

sparkstreaming对接kafka数据，在idea程序上出现警告信息并卡住不动的解决办法2021-05-02 17:30:58

Sparkstreaming的整合和其他一些知识点2021-04-28 19:01:29

7.分布式计算平台Spark：Streaming2021-03-20 22:32:27

必会:关于SparkStreaming checkpoint那些事儿2021-03-18 19:51:26

SparkStreaming源码阅读思路2021-03-18 16:02:57

SparkStreaming如何解决小文件问题2021-03-18 16:02:40

Kafka+SparkStreaming+Mysql实践2021-02-24 16:59:13

SparkStreaming整合SparkSql2021-02-09 16:04:55

Sparkstreaming2021-02-04 12:59:32

SparkStreaming的DStream转换操作2021-01-29 22:32:24

SparkStreaming Kafka 维护offset2021-01-20 19:03:42

spark学习进度28（SparkStreaming）2021-01-17 22:03:48