spark

spark 20220812笔记本72022-08-12 09:34:41
1_Spark Streaming 概述2022-08-08 20:02:47

1. Spark Streaming 是什么？ Spark Streaming 是 Spark Core 的扩展API 用来支持高吞吐、高容错的处理流式数据数据源可以是 : Kafka、TCP sockets、Flume、Twitter等流式数据源处理数据: 可以用 Spark Core的算子 map、reduce、join、window
6. 从ods（贴源层）到 dwd(数据明细层)的两种处理方式（spark）-dsl2022-08-08 01:01:59

6. 从ods（贴源层）到 dwd(数据明细层)的两种处理方式（spark） 6.1 使用spark dsl 方式处理 6.1.1 注意事项 # 开启hive元数据支持，开启之后在spark中可以直接读取hive中的表，但是开启之后就不能再本地云心的了 .enableHiveSupport() # 这下脚本都是作用在dwd层，所以必须在dwd的用户下执行，
Spark部署文档（黑马程序员资料）2022-08-04 20:02:24

Spark Local环境部署下载地址 https://dlcdn.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz 条件 PYTHON 推荐3.8 JDK 1.8 Anaconda On Linux 安装本次课程的Python环境需要安装到Linux(虚拟机)和Windows(本机)上参见最下方, 附: Anaconda On Linux 安装解压
Kafka与Spark案例实践2022-07-31 17:35:32

1.概述 Kafka系统的灵活多变，让它拥有丰富的拓展性，可以与第三方套件很方便的对接。例如，实时计算引擎Spark。接下来通过一个完整案例，运用Kafka和Spark来合理完成。 2.内容 2.1 初始Spark 在大数据应用场景中，面对实时计算、处理流数据、降低计算耗时等问题时，Apache Spark提供的计算引
HDFS配置HA下spark-sql写入hive报错Wrong FS2022-07-28 17:02:20

背景: 　　CDH集群的HDFS HA已配置完毕，Hive也相应进行了Update Hive Metastore NameNode，Hive的业务sql脚本都正常运行。　　在使用spark-sql 写入hive时报错： Caused by: java.lang.IllegalArgumentException: Wrong FS: hdfs://nameservice1:8020/dw/ods/ods_node_data_i_temp/.
spark sql 概述2022-07-26 11:03:47

目录sparkspark sqlDataFrame使用方法 spark 基于内存的计算引擎，计算速度非常快，但是只涉及数据的计算，没有涉及数据的存储。 spark sql Spark sql不仅仅支持sql操作，还提供了例如外部数据源，以及各种优化 spark sql不仅提供了sql的api，还提供了DataFrame和Dataset的api ** spark sq
CVE-2022-33891 Apache spark shell 命令注入漏洞复现2022-07-25 18:03:44

简介 Spark 是用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 中的高级 API，以及支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具，包括用于 SQL 和 DataFrames 的 Spark SQL、用于 Pandas 工作负载的 Spark 上的 Pandas API、用于机器
一文了解 NebulaGraph 上的 Spark 项目2022-07-23 16:06:40

本文首发于 Nebula Graph Community 公众号最近我试着搭建了方便大家一键试玩的 Nebula Graph 中的 Spark 相关的项目，今天就把它们整理成文分享给大家。而且，我趟出来了 PySpark 下的 Nebula Spark Connector 的使用方式，后边也会一并贡献到文档里。 NebulaGraph 的三个 Spark 子
spark standalone 部署2022-07-23 02:00:36

上传 spark-3.1.2-bin-hadoop3.2.tgz 到 /export/software/ # 解压安装cd /export/software/tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /export/server # 重命名cd /export/servermv spark-3.1.2-bin-hadoop3.2 spark-standalone# 重新构建软连接rm -rf sparkln -s spark-stan
spark 启动standalone2022-07-23 00:34:06

cd /export/server/spark sbin/start-master.sh sbin/start-workers.sh sbin/start-history-server.sh 监控：启动以后才能访问 http://node1:8080/ Master监控服务：相当于YARN中的8088 http://node1:18080/ HistoryServer历史监控服务：相当于MR中的19888 - Master
大数据综合项目设计.考试复习题2022-07-22 17:32:02

一、选择题 1. 对文件进行归档的命令为 D 。 A. dd B. cpio C. gzip D. tar 2. 改变文件所有者的命令为 C 。 A. chmod B. touch C. chown D. cat 3. 在给定文件中查找与设定条件相符字符串的命令为 A 。 A. grep B. gzip C. find D. sort 4. 建立一个新文件可以使用的命令为
spark-数据倾斜2022-07-21 23:40:24

spark-数据倾斜 1.解决方案 1.1使用Hive ETL预处理数据 1.2、过滤少数导致倾斜的key 1.3、提高shuffle操作的并行度 1.4、双重聚合 1.5、将reduce join转为map join 1.6 、采样倾斜key并分拆join操作 1. 7、使用随机前缀和扩容RDD进行join
spark-数据倾斜2022-07-21 23:40:23

spark-数据倾斜 1.解决方案 1.1使用Hive ETL预处理数据 1.2、过滤少数导致倾斜的key 1.3、提高shuffle操作的并行度 1.4、双重聚合 1.5、将reduce join转为map join 1.6 、采样倾斜key并分拆join操作 1. 7、使用随机前缀和扩容RDD进行join
spark-调优（配置层面）2022-07-21 23:12:05

spark-调优（配置层面） 1.executor的配置（重点） --num-executors executor的数量 --executor-memory 每一个executor的内存 --executor-cores 每一个executor的核心数 --driver-memory Driver的内存1G-2G(保存广播变量) --spark.storage.memoryFraction 用于缓存的内存占比默认时0.6,
spark-调优（代码层面）2022-07-21 21:34:54

spark-调优（代码）在编写代码时可以进行优化避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化尽量避免使用shuffle类算子使用map-side预聚合的shuffle操作使用高性能的算子广播大变量使用Kryo优化序列化性能优化数据结构使用高性能的库fastutil 1.对多
初识Spark2022-07-20 21:34:28

Spark最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点：　　运行速度快：Spark使用先进的DAG（Directed Acyclic Graph，有向无环图）执行引擎，以支持循环数据流与内
spark streaming 小案例2022-07-20 10:35:08

spark streaming 实时计算的案例数据 {"car":"皖A9A7N2","city_code":"340500","county_code":"340522","card":117988031603010,"camera_id":"00001","orientation":"西南&q
spark streaming-DS,DF,RDD相互转换，submit，数据落盘2022-07-20 10:05:26

spark streaming DS转成DF写代码 package com.shujia.spark.streaming import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.streaming.dstream.ReceiverInputDStream import
spark_subject合集2022-07-17 23:09:46

spark subject subject_1:lag函数的使用场景（灵活）公司代码,年度,1月-------------------------12月的收入金额 burk,year,tsl01,tsl02,tsl03,tsl04,tsl05,tsl06,tsl07,tsl08,tsl09,tsl10,tsl11,tsl12 853101,2010,100200,25002,19440,20550,14990,17227,40990,28778,19088,29889,1
spark sql整合hive-重要2022-07-17 21:34:21

spark sql整合hive 在spark sql中使用hive的元数据 spark sql是使用spark进行计算的，hive使用MR进行计算的 1、在hive的hive-site.xml修改一行配置，增加了这一行配置之后，以后在使用hive之前都需要先启动元数据服务 cd /usr/local/soft/hive-1.2.1/conf/ <property> <name>hive.met
Spark Streaming实时写入Hive当日分区2022-07-17 17:13:09

背景由于需要查看原始数据，而原始数据实时产生，数据量较大，大约1万/分钟，写入MDB占用MDB的流量带宽，故考虑将原始数据写入Hive 逻辑 Spark Streaming作业中将消费的RDD整体处理为一个临时表，然后insert into到Hive表当日分区，即追加到当日分区现状写入少部分数据后就没有新数据
pyspark2022-07-17 13:04:46

1：PySpark类库和标准Spark框架的简单对比 2: 安装将/spark/python/pyspark 复制到 python 的安装包中或者 pip install pyspark (注意版本对应关系） 3：spark on hive 本质：将hive的执行引擎替换为spark 的执行引擎！　　配置：校验hive的是否正常运行
0基础就可以上手的Spark脚本开发-for Java2022-07-16 12:05:52

前言最近由于工作需要，要分析大几百G的Nginx日志数据。之前也有过类似的需求，但那个时候数据量不多。一次只有几百兆，或者几个G。因为数据都在Hive里面，当时的做法是：把数据从Hive导到MySQL，然后写代码查询MySQL并处理。如果你的处理逻辑比较简单，或只是查询统计，不会设计上游的服务调用，
开源数据质量解决方案——Apache Griffin入门宝典2022-07-15 13:31:39

提到格里芬—Griffin，大家想到更多的是篮球明星或者战队名，但在大数据领域Apache Griffin（以下简称Griffin）可是数据质量领域响当当的一哥。先说一句：Griffin是大数据质量监控领域唯一的Apache项目，懂了吧。在不重视数据质量的大数据发展时期，Griffin并不能引起重视，但是随着数据治

首页 < 1 2 3 4 5 6 7 8 > 尾页

ICode9

spark 20220812笔记本72022-08-12 09:34:41

1_Spark Streaming 概述2022-08-08 20:02:47

6. 从ods（贴源层）到 dwd(数据明细层)的两种处理方式（spark）-dsl2022-08-08 01:01:59

Spark部署文档（黑马程序员资料）2022-08-04 20:02:24

Kafka与Spark案例实践2022-07-31 17:35:32

HDFS配置HA下spark-sql写入hive报错Wrong FS2022-07-28 17:02:20

spark sql 概述2022-07-26 11:03:47

CVE-2022-33891 Apache spark shell 命令注入漏洞复现2022-07-25 18:03:44

一文了解 NebulaGraph 上的 Spark 项目2022-07-23 16:06:40

spark standalone 部署2022-07-23 02:00:36

spark 启动standalone2022-07-23 00:34:06

大数据综合项目设计.考试复习题2022-07-22 17:32:02

spark-数据倾斜2022-07-21 23:40:24

spark-数据倾斜2022-07-21 23:40:23

spark-调优（配置层面）2022-07-21 23:12:05

spark-调优（代码层面）2022-07-21 21:34:54

初识Spark2022-07-20 21:34:28

spark streaming 小案例2022-07-20 10:35:08

spark streaming-DS,DF,RDD相互转换，submit，数据落盘2022-07-20 10:05:26

spark_subject合集2022-07-17 23:09:46

spark sql整合hive-重要2022-07-17 21:34:21

Spark Streaming实时写入Hive当日分区2022-07-17 17:13:09

pyspark2022-07-17 13:04:46

0基础就可以上手的Spark脚本开发-for Java2022-07-16 12:05:52

开源数据质量解决方案——Apache Griffin入门宝典2022-07-15 13:31:39