ICode9

精准搜索请尝试: 精确搜索
  • 基于Spark Streaming对新闻网站项目案例分析2020-12-21 12:35:03

    目录 一、需求分析二、数据准备(1)数据格式(2)基于Java开发实时数据生成器 三、实施过程 一、需求分析 新闻网站需求: pvuv注册用户数热门板块 数据处理流程: 数据源 -> kafka -> spark streaming 二、数据准备 (1)数据格式 网站日志格式 : date,timestamp,userid,pageid,sec

  • Flink学习笔记——Execution Mode2020-12-14 16:36:02

    Flink有3中运行模式,分别是STREAMING,BATCH和AUTOMATIC Ref https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/datastream_execution_mode.html 1.STREAMING运行模式 是DataStream默认的运行模式 2.BATCH运行模式 也可以在DataStream API上运行 3.AUTOMATIC

  • Spark Streaming计算wordCount2020-12-11 20:58:49

    1、计算原理 Sparkstreaming处理数据可以分为实时流或者流Sparkstreaming从flume或者kafka中拉取数据,而Sparkstreaming中会创建多个窗口,以RDD的形式存放这些数据,然后开始处理这些数据Sparkstreaming含有一个特有的算子updateStateByKey,就是在state中累计之前窗口中的数据

  • Spark3大数据实时处理-Streaming+Structured Streaming 实战2020-12-09 19:02:10

    download:Spark3大数据实时处理-Streaming+Structured Streaming 实战 随着云计算和大数据的快速发展,在企业中大数据实时处理场景的需求越来越多。本课针对企业级实时处理方案进行全方位的讲解,基于Spark3,在同一个项目中,学习两套实时处理的解决方案:Spark Streaming和Structured

  • Flink 写数据到MySql (JDBC Sink)2020-12-06 15:32:07

    POM 文件 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.10.2</version> </dependency> <!--

  • SparkStreaming和Flink详细对比2020-11-23 13:59:20

    Spark Streaming 和 Flink 详细对比 第一部分 编程模型对比 1.1运行角色 Spark Streaming 运行时的角色(standalone 模式)主要有: 1)Master:主要负责整体集群资源的管理和应用程序调度; 2)Worker:负责单个节点的资源管理,driver 和 executor 的启动等; 3)Driver:用户入口程序执行的

  • Hadoop使用实例2020-11-13 20:34:12

    1.词频统计 下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 编写map与reduce函数 本地测试map与reduce 将文本数据上传至HDFS上 用hadoop streaming提交任务 查看运行结果 计算结果取回到本                                   2.气象数据分析  

  • Hadoop使用实例2020-11-13 19:02:04

    1.词频统计 1.1下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 1.2编写map与reduce函数 1.3本地测试map与reduce 1.4将文本数据上传至HDFS上 1.5用hadoop streaming提交任务 1.6查看运行结果 1.7计算结果取回到本地       2.气象数据分析      如:求每日最高温度

  • Hadoop使用实例2020-11-12 11:32:51

    一、词频统计 1. 下载喜欢的电子书或大量文本数据,并保存在本地文本文件中         2. 编写map与reduce函数         3. 本地测试map与reduce             4. 将文本数据上传至HDFS上             5. 用hadoop streaming提交任务         6. 

  • Spark Stuctured Streaming 读取文件夹数据2020-11-10 14:02:35

    package com.atguigu.structure.streaming import org.apache.spark.sql.streaming.Trigger import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType} object filesource { def

  • Hadoop使用实例2020-11-06 14:02:30

    1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中     2.编写map与reduce函数         3.本地测试map与reduce     4.将文本数据上传至HDFS上     5.用hadoop streaming提交任务     6.查看运行结果     7.计算结果取回到本地  

  • Flink读写Redis(一)-写入Redis2020-10-26 21:35:20

    项目pom文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xs

  • Spark介绍-spark的使用(2)2020-10-20 22:03:53

    引言 接下来从使用spark structured streaming的示例等各个方面分析,spark提供了什么接口给我们使用以深入探究spark帮我们做了什么? 示例代码 代码分步骤解析

  • NATS Streaming Golang客户端API文档2020-09-21 18:32:20

    对于Golang客户端API文档,需要这样: 1)用 Go 下载 go版本客户端源码及使用文档 $ go git git@github.com:nats-io/nats.go.git 2)使用 Go 文档查看器来查看线上文档 $ godoc -http :8080 3)通过浏览器访问 API 文档 http://localhost:8080/pkg/github.com/nats-io/gnatsd/ 注意:通过 Go

  • flink 读取 CSV 文件,并将 DataStream 转 Table 对象2020-09-18 02:33:14

    package com.myflink import java.lang.reflect.Field import java.util import org.apache.flink.api.common.typeinfo._ import org.apache.flink.api.java.io.{PojoCsvInputFormat, RowCsvInputFormat} import org.apache.flink.api.java.typeutils.{PojoField, PojoType

  • 基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析2020-08-13 14:31:18

    1.Canal是什么?2.如何编写Canal客户端?3.如何编写一个数据库操作的Spark程序代码?4.开发Spark项目时容易发生哪些冲突问题?Spark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量

  • ffmpeg 解码播放 streaming of audio and video using rtmp2020-07-29 02:00:16

    下载开发包。 提取码:9yz1   1 public unsafe class Pull_Rtmp 2 { 3 /// <summary> 4 /// 显示图片委托 5 /// </summary> 6 /// <param name="bitmap"></param> 7 public delegate void

  • Spark Streaming连接Kafka入门教程2020-06-15 10:51:31

    前言 首先要安装好kafka,这里不做kafka安装的介绍,本文是Spark Streaming入门教程,只是简单的介绍如何利用spark 连接kafka,并消费数据,由于博主也是才学,所以其中代码以实现为主,可能并不是最好的实现方式。 1、对应依赖 根据kafka版本选择对应的依赖,我的kafka版本为0.10.1,spark版本2.

  • [DB] Spark Streaming2020-06-14 23:55:45

    概述 流式计算框架,类似Storm 严格来说不是真正的流式计算(实时计算),而是把连续的数据当做不连续的RDD处理,本质是离散计算 Flink:和 Spark Streaming 相反,把离散数据当成流式数据处理 基础 易用,已经集成在Spark中 容错性,底层也是RDD 支持Java、Scala、Python WordCount nc -l -p

  • 实现PHP中Flink框架模式下Storm胡变量!Samza如何做到分流处理框架分层2020-06-10 09:55:45

    根据最新的统计显示,仅在过去的两年中,当今世界上90%的数据都是在新产生的,每天创建2.5万亿字节的数据,并且随着新设备,传感器和技术的出现,数据增长速度可能会进一步加快。从技术上讲,这意味着我们的大数据处理将变得更加复杂且更具挑战性。而且,许多用例(例如,移动应用广告,欺诈检测,出租车预

  • kafka unclean 配置代表啥,会对 spark streaming 消费有什么影响?2020-05-25 13:51:43

    unclean.leader.election.enable 为true的话,意味着非ISR集合的broker 也可以参与选举,这样有可能就会丢数据,spark streaming在消费过程中拿到的 end offset 会突然变小,导致 spark streaming job挂掉。如果unclean.leader.election.enable参数设置为true,就有可能发生数据丢失和数据

  • 直播推流常用推流传输协议2020-05-15 18:55:03

    1.rtsp(real time streaming protocol):实时流 传输协议,用于控制声音和图像的多媒体串流协议。由real networks和netscape提出。  基于udp协议,实时性比较好、一般用于视频会议。2.rtmp(real time messaging protocol):实时消息 传输协议,adobe公司为flash播放器和服务器之间的音频、视

  • Spark快速回顾汇总(2)2020-05-08 18:55:32

    Spark快速回顾汇总(1) Spark快速回顾汇总(2) 1 简述 Spark 中共享变量(广播变量和累加器)的基本原理与 用途。(重点) 2 当 Spark 涉及到数据库的操作时,如何减少 Spark 运行中的 数据库连接数 使用 foreachPartition 代替 foreach,在 foreachPartition 内获取数据库的连接 3 SparkSQL 中

  • pg11 barman2020-04-27 15:51:45

    pg主机: 开用户 createuser -s -P barman 密码barman1234 创建replication用户  createuser -P --replication streaming_barman 密码streaming_barman1234   ssh-keygen       barman主机: 密码写入~barman/.pgpass pg:5432:postgres:barman:barman1234192.168.219.30:5432:po

  • spark 集群优化2020-04-24 21:55:02

    只有满怀自信的人,能在任何地方都怀有自信,沉浸在生活中,并认识自己的意志。 前言 最近公司有一个生产的小集群,专门用于运行spark作业。但是偶尔会因为nn或dn压力过大而导致作业checkpoint操作失败进而导致spark 流任务失败。本篇记录从应用层面对spark作业进行优化,进而达到优化集群

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有