ICode9

精准搜索请尝试: 精确搜索
  • sparkstreaming转换算子--窗口函数2022-09-02 13:01:06

    window 画图理解 说明 countByWindow 对每个滑动窗口的数据执行count操作 reduceByWindow 对每个滑动窗口的数据执行reduce操作 reduceByKeyAndWindow 对每个滑动窗口的数据执行reduceByKey操作 countByValueAndWindow 对每个滑动窗口的数据执行countByValue操作 都需要传入两个

  • SparkStreaming整合Kafka2022-06-10 12:34:10

    intellij代码实现Spark Stream和Kafka结合消息接收及处理StreamKaf StreamKafkaProducer1 package org.hnsw import java.util import org.apache.kafka.clients.consumer.ConsumerConfig import org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerR

  • Flink-初识(特点、与sparkstreaming的比较)2022-05-18 22:04:03

    1.初识 Flink 起源于 Stratosphere 项目,Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014 年 4 月 Stratosphere 的代 码 被 复 制 并 捐 赠 给 了 Apache 软 件 基 金 会 , 参 加 这 个 孵 化 项 目 的 初 始 成 员 是Stratosph

  • SparkStreaming2022-03-03 17:33:54

    自定义采集器 package com.gazikel.streamaing import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.dstream.ReceiverInputDStream import org.apache.spark.streaming.{Seconds, StreamingContext} import org

  • SparkStreaming2021-11-23 14:33:39

    1、SparkStreaming概述 数据处理类型分类 静态数据 数据源是不变的、有限的、显式离散的多适用于批量计算、离线计算流数据 数据是变动的、无限的、连续的多适用于实时计算,能在秒级、秒内处理完成 实时数据分类 小时级分钟级秒级sparkstreaming是

  • sparkstreaming2021-10-19 11:02:48

    SparkStreaming+Kafka流程: 流式数据-->Flume-->Kafka-->SparkStreaming/StructStreaming/Flink-->Redis/Hbase/HDFS/Mysql 连接Kafka方式: Direct Approach(No Receivers): 1.KafkaUtils.createDirectStream直连方式,Streaming中每批次的每个job直接调用Simple Consumer A

  • Flume+Kafka+SparkStreaming打造实时流处理框架2021-08-17 16:31:07

    Flume+Kafka+SparkStreaming打造实时流处理框架 1-1 实时流处理产生背景 时效性高,数据量大 1-2 实时流处理概述 实时计算(秒,毫秒级别) 流式计算(在不断产生的实时数据流计算)7*24 1-3 离线计算与实时计算的对比 1-3-1 数据来源 离线:HDFS,历史数据,数据量比较大 实时:消息队列(kafka)实

  • 【转载】【必会】SparkStreaming的窗口操作及实战2021-07-21 19:00:53

    Window Operations(窗口操作)可以设置窗口大小和滑动窗口间隔来动态的获取当前Streaming的状态。基于窗口的操作会在一个比 StreamingContext 的 batchDuration(批次间隔)更长的时间范围内,通过整合多个批次的结果,计算出整个窗口的结果。 下面,通过一张图来描述SparkStreaming的窗口操

  • sparkStreaming2021-07-02 12:32:29

    import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}// 创建一个本地模式的StreamingContext, 两个工作线程, 1s的批处理间隔//Master要求2个核,以防出现饥饿情况object Socket { def main(args: Array[String]): Unit = {// Spa

  • 一文告诉你SparkStreaming如何整合Kafka!2021-06-01 17:54:51

            关于SparkStreaming从理论到实战的部分,博主已经在前面的博客中介绍了。本篇博客,为大家带来的是SparkStreaming整合Kafka的教程! 文章目录 Kafka回顾 整合kafka两种模式说明 1.Receiver接收方式: 2.Direct直连方式 spark-streaming-kafka-0-8(了解) 1.Receiver 2

  • 春城无处不飞花,小白带你侃SparkStreaming(实战应用篇)2021-06-01 17:54:29

            自上一篇《春城无处不飞花,小白带你侃SparkStreaming(原理引入篇)》结束之后,博主就一直在酝酿着下一篇怎么开始,这不,忙了几天终于也有了下文。         码字不易,先赞后看,养成习惯! 文章目录 第三章 Spark Streaming实战 3.1 WordCount 3.1.1. 需求&准备

  • 春城无处不飞花,小白带你侃SparkStreaming(原理引入篇)2021-06-01 17:54:10

            介绍完了SparkSQL,接下来让我们推开SparkStreaming的大门,接收新知识的洗礼。跟刚入坑SparkSQL时一样,让我们来回顾一下Spark的内置模块。         相信勤奋好学的大家肯定都还记得的对吧,那么接下来我们就要正式开始学习SparkStreaming咯~         

  • PySpark之SparkStreaming基本操作2021-05-11 15:57:15

    PySpark之SparkStreaming基本操作 前言 流数据具有如下特征: •数据快速持续到达,潜在大小也许是无穷无尽的 •数据来源众多,格式复杂 •数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储 •注重数据的整体价值,不过分关注个别数据 •数据顺序颠倒,或者不完整,系统

  • sparkstreaming对接kafka数据,在idea程序上出现警告信息并卡住不动的解决办法2021-05-02 17:30:58

    spark jira 用中文的同学看了我笑了,牛啊 Unexpected delay before fetch response transmission Details Type:Bug Status:Open Priority: Major Resolution: Unresolved Affects Version/s: 0.9.0.0, 0.9.0.1, 0.10.0.0, (3) 0.10.0.1, 0.10.1.0, 0.10.1.1 Fix Version/s:

  • Sparkstreaming的整合和其他一些知识点2021-04-28 19:01:29

    flume与spark的整合 flume作为日志实时采集的框架,可以与SparkStreaming实时处理框架进行对接,flume实时产生数据,sparkStreaming做实时处理。 Spark Streaming对接FlumeNG有两种方式,一种是FlumeNG将消息Push推给Spark Streaming,还有一种是Spark Streaming从flume 中Poll拉取数

  • 7.分布式计算平台Spark:Streaming2021-03-20 22:32:27

    分布式计算平台Spark:Streaming 一、重点 离线案例 工作中开发代码流程或者方式 SparkCore + SparkSQL:熟悉代码开发 DSL:when(条件,成立的返回值).otherwise(不成立的返回值) SQL:with 别名 as (SQL) select * from 别名 工具类补充:配置文件解析、IP解析工具类 流式计

  • 必会:关于SparkStreaming checkpoint那些事儿2021-03-18 19:51:26

    必会:关于SparkStreaming checkpoint那些事儿 浪尖 浪尖聊大数据 spark Streaming的checkpoint是一个利器,帮助在driver端非代码逻辑错误导致的driver应用失败重启,比如网络,jvm等,当然也仅限于支持自动重启的集群管理器,比如yarn。由于checkpoint信息包含序列化的Scala / Java / Pyt

  • SparkStreaming源码阅读思路2021-03-18 16:02:57

    SparkStreaming源码阅读思路 浪尖 浪尖聊大数据 SparkStreaming的DirectAPI源码阅读思路 Spark Streaming的流式处理,尤其和kafka的集合,应该是企业应用的关键技术点,作为spark学习和工作者,要熟练的掌握其中原理,精读源码,才能更好的完成任务和相关工调优工作内容。对其原理简介,浪尖不

  • SparkStreaming如何解决小文件问题2021-03-18 16:02:40

    SparkStreaming如何解决小文件问题 火星 浪尖聊大数据 使用sparkstreaming时,如果实时计算结果要写入到HDFS,那么不可避免的会遇到一个问题,那就是在默认情况下会产生非常多的小文件,这是由sparkstreaming的微批处理模式和DStream(RDD)的分布式(partition)特性导致的,sparkstreaming为

  • Kafka+SparkStreaming+Mysql实践2021-02-24 16:59:13

    1 场景描述 1.1需求描述:教学平台产品需要实时更新具体课程浏览量。 1.2数据处理:埋点数据到达kafka以后、流计算根据主键更新mysql的数据。 1.3工程结构图 2 主代码 package RealOnline import java.sql.{DriverManager, ResultSet} import com.alibaba.fastjson.JSON impo

  • SparkStreaming整合SparkSql2021-02-09 16:04:55

    SparkStreaming整合SparkSql的程序中spark的重要对象创建的顺序可能会导致程序报错。 可按照 sparkConf、SparkContext、StreamingContext、SparkSession的顺序。 //TODO 1、创建ssc对象 val conf = new SparkConf().setAppName("BoxLogStreamingDeal").setMaster("y

  • Sparkstreaming2021-02-04 12:59:32

    一、Spark Streaming处理框架: Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,可以使用诸如map、reduce、join等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,处理结果保存到HDFS,数据库等。 二、SparkStreaming实时任务如何开发? 1. 数据的

  • SparkStreaming的DStream转换操作2021-01-29 22:32:24

    SparkStreaming的DStream转换操作 DStream上的操作与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种Window相关的原语。 一、状态概述 状态: state,指保存数据的对象 有状态的

  • SparkStreaming Kafka 维护offset2021-01-20 19:03:42

    文章目录 Kafka itself own data store for MySql own data store for Redis 生产SparkStreaming数据零丢失实验 SparkStreaming Kafka 维护offset 官网有三种实现方式 Checkpoints Kafka itself Your own data store 这里第一种方式不推荐使用,这里只介绍后面两种方式 Kafka i

  • spark学习进度28(SparkStreaming)2021-01-17 22:03:48

    SparkStreaming       Spark Streaming 的特点 特点说明 Spark Streaming 是 Spark Core API 的扩展 Spark Streaming 具有类似 RDD 的 API, 易于使用, 并可和现有系统共用相似代码 一个非常重要的特点是, Spark Streaming 可以在流上使用基于 Spa

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有