spark

总结淘宝双十一数据可视化遇到的问题和对应的解决方案2022-06-21 13:04:32

1，运行hive时，出现包错误原因：spark版本升级到2.x以后,原有lib目录下的大JAR包被分散成多个小JAR包，原来的spark-assembly-*.jar已经不存在，所以hive没有办法找到这个JAR包。要做的只是将hive中的启动文件中的sparkAssemblyPath这一行更改为之前安装spark的jar包路径即可。解决方
实时计算框架对比-Flink/Spark Streaming/Storm2022-06-19 14:33:55

欢迎关注公众号：实时计算引言随着互联网和大数据技术的发展，实时计算框架也在推陈出新，向着高吞吐、高可用、低延迟准实时的方向发展。本文从几个方面全面对比业界流行的实时计算框架，总结了各框架的优缺点，希望对读者进行架构设计和技术选型提供帮助。各框架对比概览
spark处理过程2022-06-17 11:04:10

(1)构建Spark Application的运行环境，启动SparkContext (2)SparkContext向资源管理器注册并向资源管理器申请运行Executor (3)资源管理器分配Executor并启动Executor (4)Executor发送心跳至资源管理器 (5)SparkContext构建DAG图 (6)将DAG分解成Stage,把Stage发送给taskScheduler (7
pyspark运行原理2022-06-14 20:00:18

必须了解的PySpark 的背后原理文章转载自《必须了解的PySpark 的背后原理》 Spark主要是由Scala语言开发，为了方便和其他系统集成而不引入scala相关依赖，部分实现使用Java语言开发，例如External Shuffle Service等。总体来说，Spark是由JVM语言实现，会运行在JVM中。然而，Spark除了
在java里向spark请求处理2022-06-14 18:33:04

打印spark处理失败的日志SparkLauncher launcher = sparkJobUtil.buildSparkLauncher(feedConfig, appName, params);SparkAppHandle handler = launcher.startApplication();int exitCode = -1;while (handler.getState() == null || !handler.getState().isFinal()) { if (ha
RDD数据读取与保存2022-06-11 10:35:03

1、文件读取与保存 1.1、Text 文件 1）数据读取：textFile(String) 2）数据保存：saveAsTextFile(String) def main(args: Array[String]): Unit = { //1.创建SparkConf并设置App名称 val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("
大数据处理期末复习2022-06-08 13:02:02

目录1. 分析题（1）常见大数据计算模式及其解决的主要问题。（2）spark streaming的运行原理。（3）spark能不能取代Hadoop，理由是什么。（4）spark中的宽依赖和窄依赖分别是什么，它们的区别是什么。（5）划分stage的方法，在图中划分stage。（6）函数式编程的特点，其与命令式编程的区别。2. 程序填空（1）创建RDD的
spark大佬总结2022-06-07 21:05:01

Spark概述 Hadoop小剧场 Hadoop1.x版本的问题 Hadoop2.x版本 Spark小剧场为什么使用函数式编程什么是Spark Spark是基于内存的快速、通用。可扩展的大数据分析引擎 Spark内置模块模块分区 Spark SQL 结构化数据 | Spark Streaming 实时计算 Spark Core 独立调度器
5.RDD操作综合实例2022-06-07 18:34:09

A. 分步骤实现准备文件下载小说或长篇新闻稿上传到hdfs上分词排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(), 停用词,可网盘下载stopwords.txt,filter()，长度小于2的词filter() 统计词频按词频排序输出到文件查看结果 B. 一句话实现：文件入
第五章_Spark核心编程_SparkConf&SparkContext2022-06-06 13:35:08

/* * TODO 关于 SparkConf 的作用 * 1. spark的配置对象用来初始化 Spark application 的配置信息 * 2. 用 SparkConf.set("key","value") 的方式来注入配置信息 * 3. 用 SparkConf对象指定的配置信息,优先级是最高的(该对象的任何设置都会覆盖默认配置和系统属性) *
7.Spark SQL2022-06-06 12:03:32

未交原因：忘记交了 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 spark出现的目的是为了替代Mapreduce，解决Mapreduce计算短板。我们知道最初的计算框架叫 mapreduce，他的缺点是计算速度慢，还有一个就是代码比较麻烦，所以有了 hive；hive 是把类 sql 的语句转换成 mapred
Pandas中的DataFrame和pyspark中的DataFrame互相转换2022-06-02 14:01:33

一、Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换： # pandas转spark values = pandas_df.values.tolist() columns = pandas_df.columns.tolist() spark_df = spark.createDataFrame(values, columns) # spark转pandas pandas_df = spark_df.toPandas() 二、Spark和
3：spark设计与运行原理2022-06-01 10:04:19

1.请用图文阐述Spark生态系统的组成及各组件的功能 2.请详细阐述Spark的几个主要概念及相互关系： Master, Worker; RDD,DAG; Application, job,stage,task; driver,executor,Claster Manager DAGScheduler, TaskScheduler. Master, Worker： RDD,DAG： Ap
Hadoop MR 和 Spark 的相同点和不同点？2022-05-31 17:05:08

Hadoop 底层使用 MapReduce 计算架构，只有 map 和 reduce 两种操作，表达能力比较欠缺，而且在 MR 过程中会重复的读写 hdfs，造成大量的磁盘 io 读写操作，所以适合高时延环境下批处理计算的应用； Spark 是基于内存的分布式计算架构，提供更加丰富的数据集操作类型，主要分成转化操作和行动操作
初识spark 之读写MySql数据2022-05-31 17:01:59

需求 1、使用spark读取MySql库数据； 2、使用spark读取MySql库数据，并写入另一张表。实现代码 1 package com.lzh.sql.数据加载保存 2 3 import org.apache.spark.SparkConf 4 import org.apache.spark.sql.{SaveMode, SparkSession} 5 6 object conMySql { 7 def main(
RDD 依赖关系2022-05-30 06:00:40

1、血缘关系&依赖关系 RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。血缘关系
Spark 源码系列 - DAGScheduler -> runJob2022-05-29 11:03:29

目录结论DAGScheduler -> runJobDAGScheduler -> submitJob 结论 DAGScheduler -> runJob def runJob[T, U]( val waiter = submitJob(rdd, func, partitions, callSite, resultHandler, properties) DAGScheduler -> submitJob 将this, 新生成的jobid, 分区数生成对象 JobWa
Spark 程序打包在集群运行2022-05-27 22:33:08

环境准备 1、pom 文件引入相关依赖&插件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version>
Spark: 单词计数(Word Count)的MapReduce实现(Java/Python)2022-05-26 20:31:07

1 导引我们在博客《Hadoop: 单词计数(Word Count)的MapReduce实现》中学习了如何用Hadoop-MapReduce实现单词计数，现在我们来看如何用Spark来实现同样的功能。 2. Spark的MapReudce原理 Spark框架也是MapReduce-like模型，采用“分治-聚合”策略来对数据分布进行分布并行处理。不过
spark 之 windows下基于IDEA搭建spark开发环境实现wordcount功能2022-05-26 14:02:08

环境准备因为Spark是scala语言开发的，scala是java语言开发的，所以需要安装JDK和scala。 JDK1.8 maven-3.8.5 Scala-2.12.15 IDEA-2021.3.3 JDK 注意：是安装JDK不是JAVA(JRE) JDK是Java的开发工具 JRE只是Java程序的运行环境 JDK包含JER 安装包： jdk-8u333-windows-x64.exe 下载
Spark 运行模式（Standalone 模式）2022-05-24 16:02:05

1、Driver & Executor Driver & Executor 是Spark 集群中两个非常重要的角色； 2、Standalone 模式 Standalone模式是Spark自带的资源调动引擎，构建一个由Master + Slave构成的Spark集群，Spark运行在集群中。这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来
【转】大数据开发之 Spark 面试八股文2022-05-24 14:32:47

【转】大数据开发之 Spark 面试八股文 1. Spark 的运行流程？具体运行流程如下： SparkContext 向资源管理器注册并向资源管理器申请运行 Executor 资源管理器分配 Executor，然后资源管理器启动 Executor Executor 发送心跳至资源管理器 SparkContext
IDEA 自定义快捷键2022-05-23 08:02:34

设置快捷键的原因近期在梳理Spark ，为了便于获取上下文对象：即以下代码 //获取 SparkConf 并设置应用名称*本地模式 val conf: SparkConf = new SparkConf().setAppName("Spark").setMaster("local[8]") //获取 Spark 上下文对象 val sc: SparkContext = new Spar
数据清洗代码2022-05-21 23:33:17

`package com.sm.cleandata //动态分区的数据清洗代码 import java.io.File import java.util.Properties import com.sm.conf.ConfigurationManager import com.sm.constants.Constants import com.sm.utils.DateUtils import org.apache.log4j.{Level, Logger} import org.apach
你的第一个大数据 helloword2022-05-20 21:04:19

环境准备目标环境是ubuntu 20，其实是windows下的子系统wsl里安装的。需要安装 pyspark 3.2.1 openjdk 15 注意pyspark 3.2.1 对应的最高版本jdk为openjdk15。安装也比较简单。 pyspark通过pip安装 pip3 install pyspark openjdk: sudo add-apt-repository ppa:openjdk-r/ppa sud

首页 < 2 3 4 5 6 7 8 > 尾页

ICode9

总结淘宝双十一数据可视化遇到的问题和对应的解决方案2022-06-21 13:04:32

实时计算框架对比-Flink/Spark Streaming/Storm2022-06-19 14:33:55

spark处理过程2022-06-17 11:04:10

pyspark运行原理2022-06-14 20:00:18

在java里向spark请求处理2022-06-14 18:33:04

RDD数据读取与保存2022-06-11 10:35:03

大数据处理期末复习2022-06-08 13:02:02

spark大佬总结2022-06-07 21:05:01

5.RDD操作综合实例2022-06-07 18:34:09

第五章_Spark核心编程_SparkConf&SparkContext2022-06-06 13:35:08

7.Spark SQL2022-06-06 12:03:32

Pandas中的DataFrame和pyspark中的DataFrame互相转换2022-06-02 14:01:33

3：spark设计与运行原理2022-06-01 10:04:19

Hadoop MR 和 Spark 的相同点和不同点？2022-05-31 17:05:08

初识spark 之 读写MySql数据2022-05-31 17:01:59

RDD 依赖关系2022-05-30 06:00:40

Spark 源码系列 - DAGScheduler -> runJob2022-05-29 11:03:29

Spark 程序打包在集群运行2022-05-27 22:33:08

Spark: 单词计数(Word Count)的MapReduce实现(Java/Python)2022-05-26 20:31:07

spark 之 windows下基于IDEA搭建spark开发环境实现wordcount功能2022-05-26 14:02:08

Spark 运行模式（Standalone 模式）2022-05-24 16:02:05

【转】大数据开发之 Spark 面试八股文2022-05-24 14:32:47

IDEA 自定义快捷键2022-05-23 08:02:34

数据清洗代码2022-05-21 23:33:17

你的第一个大数据 helloword2022-05-20 21:04:19

初识spark 之读写MySql数据2022-05-31 17:01:59