ICode9

精准搜索请尝试: 精确搜索
  • shell脚本调用spark-sql2021-06-12 20:29:24

    #!/bin/sh #set -x ######################### #author : robin #version : v3.0 ######################### #$1 : start time for business circle #$2 : end time for business circle #$3 : start time of slowly changing dimension for SF orginazation #$4 : spark p

  • 独孤九剑-Spark面试80连击(下)2021-06-10 21:04:14

    By 大数据技术与架构 场景描述:这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上,如有侵权请联系删除!

  • 独孤九剑-Spark面试80连击(下)2021-06-10 21:04:06

    By 大数据技术与架构 场景描述:这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上,如有侵权请联系删除!

  • 多线程2021-06-09 02:05:03

    一、初始化线程的4种方式 1)、继承Thread 2)、实现Runnable接口 3)、实现Callable接口 + FutureTask(可以拿到返回结果,可以处理异常) 4)、线程池 方式1和方式2;主线程无法获取线程的运算结果,不适合当前场景 方式3:主线程可以获取线程的运算结果,但是不利于控制服务器中的线程

  • impala 查询资源调度配置,执行器executor,协调器coordinator 角色组配置 优化节点资源分配2021-06-08 17:33:31

    记录一下,在用impala作为计算引擎查询hive数据时,经常性的发现资源少的节点由于内存暴增而记录一下,在用impala作为计算引擎查询hive数据时,经常性的发现资源少的节点由于内存暴增而导致impala Daemon 挂掉,仔细查询cdh中impala执行过程的日志,发现impala的计算会初始化到一个节点 我

  • 02 Spark架构与运行流程2021-06-07 20:01:45

    一、简述Spark生态系统。 答:Spark 生态系统以Spark Core 为核心,能够读取传统文件(如文本文件)、HDFS、Amazon S3、Alluxio 和NoSQL 等数据源,利用Standalone、YARN 和Mesos 等资源调度管理,完成应用程序分析与处理。这些应用程序来自Spark 的不同组件,如Spark Shell 或Spark Submit 交

  • 02 Spark架构与运行流程2021-06-07 15:35:48

    1. 为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的Spark Streaming; 2) 应用于即席查询(Ad-hoc)

  • –spark submit的调优以及参数解析2021-06-07 15:32:51

    –spark submit spark-submit --conf spark.default.parallelism=40 --num-executors 5 --executor-cores 4 --executor-memory 8G --master yarn --class com.xx.TopDiscount topnDiscount-1.0-SNAPSHOT.jar $1 $2 spark-submit --conf spark.default.parallelism=12 --num-

  • 02 Spark架构与运行流程2021-06-06 20:34:32

    1. Spark已打造出结构一体化、功能多样化的大数据生态系统,请简述Spark生态系统。   spark生态系统称为BDAS(伯努利数据分析栈),本文旨在简单介绍Spark生态系统中一些常用的组件,让大家对Spark生态系统(BDAS)有个简单的了解,知道什么组件能做什么事情 Spark生态系统(BDAS)图 组件介绍 1 .

  • 02 Spark架构与运行流程2021-06-06 12:05:49

    1、Spark已打造出结构一体化、功能多样化的大数据生态系统,请简述Spark生态系统 Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整生态系统,既能够提供内存计算框架,也可以支持SQL即席查询、实时流式计算、机器学习和图计算等。Spark可以部署在资源管理器YARN

  • 02 Spark架构与运行流程2021-06-06 12:02:45

    1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的Spark Streaming; 2) 应用于即席查询(Ad-hoc)的

  • 02 Spark架构与运行流程(补)2021-06-04 17:02:49

    1.为什么要引入Yarn和Spark 1.部署Application和服务更加方便   只需要yarn服务,包括Spark,Storm在内的多种应用程序不要要自带服务,它们经由客户端提交后,由yarn提供的分布式缓存机制分发到各个计算节点上。 2.资源隔离机制   yarn只负责资源的管理和调度,完全由用户和自己决定在y

  • spring使用@Async注解异步处理2021-06-03 12:02:06

    import lombok.extern.slf4j.Slf4j; import org.springframework.beans.factory.annotation.Value; import org.springframework.context.annotation.Bean; import org.springframework.context.annotation.Configuration; import org.springframework.scheduling.annotation.

  • 不会这20个Spark热门技术点,你敢出去面试大数据吗?2021-06-01 17:55:37

            关于大数据面试中对Spark的知识考查不需本菌多解释什么了吧~本篇博客,博主为大家分享20个Spark热门技术点,希望今年出去面试,实习的同学,尤其是想去大厂的同学,一定要把下面的20个技术点看完。 文章目录 1、Spark有几种部署方式?(重点) 2、Spark提交作业参数(重点) 3、

  • Spark命令详解2021-06-01 17:52:12

            本篇博客,Alice为大家带来关于Spark命令的详解。 spark-shell 引入        之前我们使用提交任务都是使用spark-shell提交,spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下可以用scala编写spark程序,适合学习测试时使

  • spark 提交job运行流程2021-05-31 19:01:35

    前言 spark在提交任务到集群后,会有一系列的处理, 从根据任务代码构建DAG,再到根据shuffle算子切分stage, 然后生成taskset提交到集群管理进行调度等等, 都需要一个比较清晰的流程梳理,便于问题定位,也利于性能优化 流程 通过测试和观察spark ui,spark会将依赖jar提前上传至hdfs目

  • spark启动任务2021-05-31 17:54:45

    文章目录启动参数增加任务的并行度executor-memoryexecutor-coresnum-executorspartitionNumber启动参数nuhup spark-submit --class com.类名绝对路径 --master yarn --deploy-mode cluster --driver-memory 4g --executor-memory 8g --executor-cores jar包  输入

  • spark的资源调度2021-05-31 17:52:08

    文章目录资源调度资源调度 Master 路径提交应用程序,submit 的路径总结:结论演示资源调度资源调度 Master 路径spark-1.6.0/core/src/main/scala/org.apache.spark/deploy/Master/Master.scala提交应用程序,submit 的路径spark-1.6.0/core/src/main/scala/org.apache.spark/ deploy/S

  • Spark的内存管理2021-05-31 17:51:21

    spark在执行应用程序时,Spark集群会启动Driver和Executor两种JVM进程Driver :创建SparkContext上下文,提交任务,task的分发Executor:负责task的计算任务,并将结果返回给Driver,同时需要为需要持久化的RDD提供储存Driver端的内存管理比较简单,这里内存管理针对是Executor端的内存管

  • ConcurrentHashMap 使用:每个 Key 只调用 1 个方法2021-05-30 10:57:47

    虽然 `ConcurrentHashMap` 的方法都线程安全,但是对同一个 Key 调用多个方法会引发竞态条件,对不同的 key 递归调用同一个方法会导致死锁。让我们通过示例了解为什么会发生这种情况:1. 调用多个方法下面的测试中,对 Key `1` 调用了两个 `ConcurrentHashMap` 方法。方法 `update`(4至12行

  • Spark广播变量和累加器2021-05-29 12:31:22

    Spark广播变量和累加器 广播变量broadcast累加器 广播变量broadcast 广播变量顾名思义,由Driver端发送数据,所有Executor端接收并保存这份数据,用于每个Executor上的数据计算工作。 广播变量的几点特性: 广播变量是保存在Executor内存中的,每个Executor一份。如果一个Executo

  • 线程池小结2021-05-27 16:01:53

    线程池--ThreadPool--java.util.concurrent 前言一、线程池1、优势2、 主要特点 二、线程池创建1.常用三种线程池:2.线程池ThreadPoolExecutor的七大参数3、线程池的执行流程三、JDK内置的拒绝策略 前言 例子:10年前单核CPU电脑假的多线程,像马戏团的小丑玩多个球,CPU来回

  • 【3天掌握Spark】-- Spark on YARN2021-05-21 21:02:39

    Spark on YARN 属性配置和服务启动 将Spark Application提交运行到YARN集群上,至关重要,企业中大多数都是运行在YANR上 文档:http://spark.apache.org/docs/2.4.5/running-on-yarn.html ​ 当Spark Application运行到YARN上时,在提交应用时指定master为yarn即可,同时需要告知YAR

  • spark内存溢出2021-05-21 16:33:48

    Spark性能调优 Container killed by YARN for exceeding memory limits.  转载:原文链接 https://cloud.tencent.com/developer/article/1812383 1、开发Spark项目的经验准则    (1)尽量少生成RDD;    (2)尽量少对RDD进行算子操作,如果有可能,尽量在一个算子里面实现多

  • datax-web在windows环境idea中模块化打包部署操作步骤2021-05-18 17:03:47

    datax-web在windows环境idea中模块化打包部署 操作步骤: 1.在idea中点击Maven Projects,点击datax-web中的clean,等待执行完成后,点击package进行打包。等待打包完成。 2.打包完成后,拷贝datax-admin下的target/datax-admin-2.1.2.jar,以及datax-executor下的target/datax-executor-2.

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有