ICode9

精准搜索请尝试: 精确搜索
  • Flink通过异步IO实现redis维表join2021-03-15 15:02:15

    Flink通过异步IO实现redis维表join 浪尖 浪尖聊大数据 使用flink做实时数仓的公司越来越多了,浪尖这边也是很早就开发了一个flink 全sql平台来实现实时数仓的功能。说到实时数仓,两个表的概念大家一定会知道的:事实表和维表。在实时输出中,事实表就是flink消费的kafka的topic数据流,而

  • spark面试该准备点啥2021-03-15 13:51:48

    spark面试该准备点啥 浪尖 浪尖聊大数据 最近很多球友都说在准备面试,不知道准备点啥,尤其是spark,实际上星球里浪尖分享的内容真的都掌握了,应对一般面试绝对没问题,但是遗憾的事情是很多人都是处于不会主动搜集资料,主动梳理知识,主动记忆整理知识,而是伸手要粮的境地。浪尖觉得这个是

  • spark streaming窗口及聚合操作后如何管理offset2021-03-15 07:01:34

    spark streaming窗口及聚合操作后如何管理offset 浪院长 浪尖聊大数据 很多知识星球球友问过浪尖一个问题: 就是spark streaming经过窗口的集合操作之后,再去管理offset呢? 对于spark streaming来说窗口操作之后,是无法管理offset的,因为offset的存储于HasOffsetRanges,只有kafkaRDD

  • spark streaming窗口及聚合操作后如何管理offset2021-03-15 07:01:23

    spark streaming窗口及聚合操作后如何管理offset 浪院长 浪尖聊大数据 很多知识星球球友问过浪尖一个问题: 就是spark streaming经过窗口的集合操作之后,再去管理offset呢? 对于spark streaming来说窗口操作之后,是无法管理offset的,因为offset的存储于HasOffsetRanges,只有kafkaRDD

  • 01 Spark架构与运行流程2021-03-14 17:33:34

    1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上的分布式,面向列的NoSQL数据库。HBase中保存

  • Spark架构与运行流程2021-03-13 23:33:18

    1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。   HDFS, MapReduce, Yarn, Hbase及Spark的相互关系如图所示:   从图中可以看出Hadoop的核心是HDFS和MapReduce,HBase、yarn、hive和spark都是在HDFS的基础上操作的。其中yarn是

  • Spark Streaming实时流处理项目实战(七)Spark Streaming入门2021-03-08 20:29:54

    Spark Streaming入门 概述应用场景集成Spark生态系统的使用Spark Streaming发展史 词频统计 概述 Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。数据可以从像卡夫卡,室壁运动,或TCP套接字许多来源摄入,并且可以使用与像高级别功能表达

  • 第1年3月3日 safari支持视频协议2021-03-03 12:02:10

    1. Specifying Multiple Delivery Schemes You can also use multiple source elements to specify different delivery schemes. Let’s say you have a large real-time video streaming service that uses RTSP streaming, and you want to add support for Safari on iOS,

  • Spark学习笔记总汇目录2021-02-19 17:35:38

    Spark学习笔记总汇目录 spark学习笔记 一、什么是Spark? 二、Spark的体系结构与安装部署 三、执行Spark Demo程序 四、Spark运行机制及原理分析 五、Spark的算子 六、Spark RDD的高级算子 七、Spark基础编程案例 Spark SQL学习笔记 一、Spark SQL基础 二、使用数据源 三、性能优化

  • 初始Spark2021-02-05 11:01:28

    参考网址:https://www.cnblogs.com/qingyunzong/p/8886338.html Spark是基于内存的计算框架 1.为什么要学习Spark? 可以解决迭代计算,融入hadoop生态圈,弥补mr计算框架的不足 2.特点 (1)speed 速度快 基于内存计算,使用有向无环图(DAG)程序调度,查询优化器,物理执行器。速度比mr快100倍

  • Flink实例(120):flink-sql使用(二十六)一文了解基于Flink构建流批一体数仓的技术点(三)2021-01-26 14:02:43

    来源:https://mp.weixin.qq.com/s/ECe_bn9HzFzXTlfEnAaLBg 3 Flink读写Hive 3.1 Flink写入Hive表 Flink支持以**批处理(Batch)和流处理(Streaming)**的方式写入Hive表。当以批处理的方式写入Hive表时,只有当写入作业结束时,才可以看到写入的数据。批处理的方式写入支持append模式和o

  • Structured Streaming编程练习-日志分析2021-01-25 17:34:18

    Syslog日志内一般包括产生日志的时间、主机名、程序模块、进程名、进程ID、严重性和日志内容。日志一般会通过Kafka等有容错保障的源发送,本实验为了简化,直接将Syslog通过Socket源发送。新建一个终端,执行如下命令:$tail -n+1 -f /var/log/syslog | nc -lk 9988“tail -n+1 -f /var/

  • spark学习进度28(SparkStreaming)2021-01-17 22:03:48

    SparkStreaming       Spark Streaming 的特点 特点说明 Spark Streaming 是 Spark Core API 的扩展 Spark Streaming 具有类似 RDD 的 API, 易于使用, 并可和现有系统共用相似代码 一个非常重要的特点是, Spark Streaming 可以在流上使用基于 Spa

  • Spark Streaming的Batch Duration优化2021-01-14 13:34:52

    Spark Streaming 是微批处理。 SparkConf sparkConf = new SparkConf().setAppName("SparkStreaming").setMaster("local[*]"); JavaStreamingContext javaStreamingContext = new JavaStreamingContext(sparkConf, Durations.seconds(1000)); Durations.sec

  • Spark Streaming 性能调优2021-01-14 13:34:12

    目录 1、合理的批次处理时间 2、合理的kafka拉取数据 3、缓存反复使用的Dstream(RDD) 4、其他一些优化策略 5、结果 1、合理的批次处理时间 关于Spark Streaming的批处理时间设置是非常重要的,Spark Streaming在不断接收数据的同时,需要处理数据的时间,所以如果设置过段的批处理时间

  • spark streaming之 windowDuration、slideDuration、batchDuration​2021-01-14 13:32:03

    spark streaming 不同于sotm,是一种准实时处理系统。storm 中,把批处理看错是时间教程的实时处理。而在spark streaming中,则反过来,把实时处理看作为时间极小的批处理。 1、三个时间参数 spark streaming 中有三个关于时间的参数,分别如下: 窗口时间windowDuration​:当前窗口要统计多长

  • Spark Streaming处理Flume数据练习2021-01-12 16:37:17

    把Flume Source(netcat类型),从终端上不断给Flume Source发送消息,Flume把消息汇集到Sink(avro类型),由Sink把消息推送给Spark Streaming并处理后输出 版本信息:spark2.4.0 Flume 1.7.0 (基于pyspark) 一、Flume安装 ①、文件导入 # 将apache-flume-1.7.0-bin.tar.gz解压到/usr/local目录

  • Spark Streaming 消费kafka数据,并手动维护offset2021-01-11 10:02:11

    1.简介 本文基于redis和mysql分别实现手动维护消费kafka的offset。 2.代码实现 2.1基于redis import java.util import com.bigdata.analysis.travel.RedisUtil import org.apache.kafka.common.TopicPartition import org.apache.spark.streaming.kafka010.OffsetRange imp

  • Flink和Spark的不同2021-01-07 16:04:47

    一,Flink是真正的流处理,延迟在毫秒级,Spark Streaming是微批,延迟在秒级。 flink可以做到来一条处理一条,spark Streaming只能采用微批次 二,Flink可以处理事件时间,而Spark Streaming只能处理机器时间,无法保证时间语义的正确性。 flink三种时间语义,因此有水位线的概念:事件时间event

  • Spark Streaming2021-01-05 20:33:05

    Spark Streaming   Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。 Spark Streaming入门小程序 第一步: 在Linux上执行以下命令安装socket客户端工具,模拟发送数据:  yum -

  • 【Spark】(五)Spark Streaming 之 DStream 转换与输出2021-01-04 20:03:26

    一、DStream 转换 DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。 1、无状态转化操作 无状态转化操作就是把简单的 RDD 转化操作

  • Nginx+FFmpeg 海康、大华NVR实现rtsp转flv实时预览+录像回放2021-01-04 16:01:25

    工具准备FFmpeg,推流工具Nginx,要想实现Flv还需要安装模块nginx-http-flv-module,这个模块需要编译,如果是linux环境很方便,如果是windows环境,对不起,超级麻烦,网上也有教程,太复杂了,还好有网友提供了编译好的版本,csdn上下载,要币才能下载,求助万能的淘宝花了5毛钱下载。Flv.js,网页播放所

  • 大数据——Scala和Java实现Spark Streaming实时流监控、Spark Streaming搭配Kafka Stream联用和Spark Streaming自定义采集器2020-12-27 10:31:07

    Scala和Java实现SparkStreaming Spark Streaming实时流监控端口数据进行WordCountScala版本实现Spark StreamingJava版本实现SparkStreaming Spark Streaming实时流监控文件夹数据进行WordCountSpark Streaming和Kafka Stream联用不显示输出过的结果显示输出过的结果 自定

  • Spark Streaming简介及运用(含案例)2020-12-24 15:03:48

    目录 1、简介2、应用示例案例一:采集端口数据实现wordcount(Scala版本)案例二:采集端口数据实现wordcount(Java版本)案例三:采集目录下的文件数据实现wordcount案例四:采集Kafka数据实现wordcount案例五:自定义采集器 1、简介 Spark Streaming是Spark核心API的一个扩展,可以实

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有