ICode9

精准搜索请尝试: 精确搜索
  • 总结淘宝双十一数据可视化遇到的问题和对应的解决方案2022-06-21 13:04:32

    1,运行hive时,出现包错误   原因:spark版本升级到2.x以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在,所以hive没有办法找到这个JAR包。要做的只是将hive中的启动文件中的sparkAssemblyPath这一行更改为之前安装spark的jar包路径即可。 解决方

  • 实时计算框架对比-Flink/Spark Streaming/Storm2022-06-19 14:33:55

    欢迎关注公众号:实时计算     引言 随着互联网和大数据技术的发展,实时计算框架也在推陈出新,向着高吞吐、高可用、低延迟准实时的方向发展。本文从几个方面全面对比业界流行的实时计算框架,总结了各框架的优缺点,希望对读者进行架构设计和技术选型提供帮助。   各框架对比概览  

  • spark处理过程2022-06-17 11:04:10

    (1)构建Spark Application的运行环境,启动SparkContext (2)SparkContext向资源管理器注册并向资源管理器申请运行Executor (3)资源管理器分配Executor并启动Executor (4)Executor发送心跳至资源管理器 (5)SparkContext构建DAG图 (6)将DAG分解成Stage,把Stage发送给taskScheduler (7

  • pyspark运行原理2022-06-14 20:00:18

    必须了解的PySpark 的背后原理   文章转载自《必须了解的PySpark 的背后原理》 Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark除了

  • 在java里向spark请求处理2022-06-14 18:33:04

    打印spark处理失败的日志SparkLauncher launcher = sparkJobUtil.buildSparkLauncher(feedConfig, appName, params);SparkAppHandle handler = launcher.startApplication();int exitCode = -1;while (handler.getState() == null || !handler.getState().isFinal()) { if (ha

  • RDD数据读取与保存2022-06-11 10:35:03

    1、文件读取与保存 1.1、Text 文件 1)数据读取:textFile(String) 2)数据保存:saveAsTextFile(String) def main(args: Array[String]): Unit = { //1.创建SparkConf并设置App名称 val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("

  • 大数据处理期末复习2022-06-08 13:02:02

    目录1. 分析题(1)常见大数据计算模式及其解决的主要问题。(2)spark streaming的运行原理。(3)spark能不能取代Hadoop,理由是什么。(4)spark中的宽依赖和窄依赖分别是什么,它们的区别是什么。(5)划分stage的方法,在图中划分stage。(6)函数式编程的特点,其与命令式编程的区别。2. 程序填空(1)创建RDD的

  • spark大佬总结2022-06-07 21:05:01

    Spark概述 Hadoop小剧场 Hadoop1.x版本的问题 Hadoop2.x版本 Spark小剧场 为什么使用函数式编程 什么是Spark Spark是基于内存的快速、通用。可扩展的大数据分析引擎 Spark内置模块 模块分区 Spark SQL 结构化数据 | Spark Streaming 实时计算 Spark Core 独立调度器

  • 5.RDD操作综合实例2022-06-07 18:34:09

    A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 统计词频 按词频排序 输出到文件 查看结果 B. 一句话实现:文件入

  • 第五章_Spark核心编程_SparkConf&SparkContext2022-06-06 13:35:08

    /* * TODO 关于 SparkConf 的作用 * 1. spark的配置对象 用来初始化 Spark application 的配置信息 * 2. 用 SparkConf.set("key","value") 的方式来注入配置信息 * 3. 用 SparkConf对象 指定的配置信息,优先级是最高的(该对象的任何设置都会覆盖默认配置和系统属性) *

  • 7.Spark SQL2022-06-06 12:03:32

    未交原因:忘记交了   1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 spark出现的目的是为了替代Mapreduce,解决Mapreduce计算短板。我们知道最初的计算框架叫 mapreduce,他的缺点是计算速度慢,还有一个就是代码比较麻烦,所以有了 hive;hive 是把类 sql 的语句转换成 mapred

  • Pandas中的DataFrame和pyspark中的DataFrame互相转换2022-06-02 14:01:33

    一、Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换: # pandas转spark values = pandas_df.values.tolist() columns = pandas_df.columns.tolist() spark_df = spark.createDataFrame(values, columns) # spark转pandas pandas_df = spark_df.toPandas() 二、Spark和

  • 3:spark设计与运行原理2022-06-01 10:04:19

    1.请用图文阐述Spark生态系统的组成及各组件的功能     2.请详细阐述Spark的几个主要概念及相互关系:   Master, Worker;  RDD,DAG; Application, job,stage,task; driver,executor,Claster Manager   DAGScheduler, TaskScheduler.   Master, Worker:   RDD,DAG:    Ap

  • Hadoop MR 和 Spark 的相同点和不同点?2022-05-31 17:05:08

    Hadoop 底层使用 MapReduce 计算架构,只有 map 和 reduce 两种操作,表达能力比较欠缺,而且在 MR 过程中会重复的读写 hdfs,造成大量的磁盘 io 读写操作,所以适合高时延环境下批处理计算的应用; Spark 是基于内存的分布式计算架构,提供更加丰富的数据集操作类型,主要分成转化操作和行动操作

  • 初识spark 之 读写MySql数据2022-05-31 17:01:59

    需求 1、使用spark读取MySql库数据; 2、使用spark读取MySql库数据,并写入另一张表。 实现代码 1 package com.lzh.sql.数据加载保存 2 3 import org.apache.spark.SparkConf 4 import org.apache.spark.sql.{SaveMode, SparkSession} 5 6 object conMySql { 7 def main(

  • RDD 依赖关系2022-05-30 06:00:40

    1、血缘关系&依赖关系 RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。 血缘关系

  • Spark 源码系列 - DAGScheduler -> runJob2022-05-29 11:03:29

    目录结论DAGScheduler -> runJobDAGScheduler -> submitJob 结论 DAGScheduler -> runJob def runJob[T, U]( val waiter = submitJob(rdd, func, partitions, callSite, resultHandler, properties) DAGScheduler -> submitJob 将this, 新生成的jobid, 分区数 生成对象 JobWa

  • Spark 程序打包在集群运行2022-05-27 22:33:08

    环境准备 1、pom 文件引入相关依赖&插件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version>

  • Spark: 单词计数(Word Count)的MapReduce实现(Java/Python)2022-05-26 20:31:07

    1 导引 我们在博客《Hadoop: 单词计数(Word Count)的MapReduce实现 》中学习了如何用Hadoop-MapReduce实现单词计数,现在我们来看如何用Spark来实现同样的功能。 2. Spark的MapReudce原理 Spark框架也是MapReduce-like模型,采用“分治-聚合”策略来对数据分布进行分布并行处理。不过

  • spark 之 windows下基于IDEA搭建spark开发环境实现wordcount功能2022-05-26 14:02:08

    环境准备 因为Spark是scala语言开发的,scala是java语言开发的,所以需要安装JDK和scala。 JDK1.8 maven-3.8.5 Scala-2.12.15 IDEA-2021.3.3 JDK 注意: 是安装JDK不是JAVA(JRE) JDK是Java的开发工具 JRE只是Java程序的运行环境 JDK包含JER 安装包: jdk-8u333-windows-x64.exe 下载

  • Spark 运行模式(Standalone 模式)2022-05-24 16:02:05

    1、Driver & Executor Driver & Executor 是Spark 集群中两个非常重要的角色; 2、Standalone 模式 Standalone模式是Spark自带的资源调动引擎,构建一个由Master + Slave构成的Spark集群,Spark运行在集群中。这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来

  • 【转】大数据开发之 Spark 面试八股文2022-05-24 14:32:47

    【转】大数据开发之 Spark 面试八股文     1. Spark 的运行流程?     具体运行流程如下: SparkContext 向资源管理器注册并向资源管理器申请运行 Executor 资源管理器分配 Executor,然后资源管理器启动 Executor Executor 发送心跳至资源管理器 SparkContext

  • IDEA 自定义快捷键2022-05-23 08:02:34

    设置快捷键的原因 近期在梳理Spark ,为了便于获取上下文对象:即以下代码 //获取 SparkConf 并设置应用名称*本地模式 val conf: SparkConf = new SparkConf().setAppName("Spark").setMaster("local[8]") //获取 Spark 上下文对象 val sc: SparkContext = new Spar

  • 数据清洗代码2022-05-21 23:33:17

    `package com.sm.cleandata //动态分区的数据清洗代码 import java.io.File import java.util.Properties import com.sm.conf.ConfigurationManager import com.sm.constants.Constants import com.sm.utils.DateUtils import org.apache.log4j.{Level, Logger} import org.apach

  • 你的第一个大数据 helloword2022-05-20 21:04:19

    环境准备 目标环境是ubuntu 20,其实是windows下的子系统wsl里安装的。需要安装 pyspark 3.2.1 openjdk 15 注意pyspark 3.2.1 对应的最高版本jdk为openjdk15。安装也比较简单。 pyspark通过pip安装 pip3 install pyspark openjdk: sudo add-apt-repository ppa:openjdk-r/ppa sud

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有