hadoop

ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景2022-05-31 00:01:42

ClickHouse的由来 ClickHouse是什么数据库？ClickHouse速度有多快？应用场景是怎么样的？ClickHouse是关系型数据库吗？ClickHouse目前是很火爆的一款面向OLAP的数据，可以提供秒级的大数据查询。 Google于2003～2006年相继发表了三篇论文“Google File System”“Google MapReduce”和“Googl
Hadoop分布式文件系统---HDFS2022-05-30 23:04:14

1.HDFS的产生背景数据量的增多，需要有一种系统管理多台机器的文件，于是产生DFS(Distributed File System) 2.HDFS简介 Hadoop项目的核心之一，用于数据存储，HDFS基于GFS开源实现。 3.HDFS优点 ·处理超大文件--MB到TB级（相对应的它不适用于存储很多小文件） ·运行于廉价机器上，廉价
实验一 Hadoop的搭建2022-05-30 20:01:10

实验要求：（1）掌握Linux虚拟机的安装方法（2）掌握一些常用的Linux命令（3）掌握Hadoop的伪分布式安装方法（4）掌握Hadoop的常用操作实验内容：一、安装Linux虚拟机（Ububtu系统）。二、熟悉常用的Linux命令 1．cd命令：切换目录（1）切换到目录 /usr/local cd /usr/l
MapReduce2022-05-29 11:01:31

MapReduce hdfs用于存储海量数据，mapreduce则用于处理数据，是一种分布式计算模型。MapReduce的思想：将任务切割为多个小任务进行并行计算（Map），然后将得到的局部结果进行汇总（Reduce）。网络io的耗时远大于磁盘io。当计算程序和数据分别在不同机器上时，将计算程序移动到数据所在节点比移动
Hadoop-动态刷新hdfs/yarn配置2022-05-28 12:31:33

在很多时候，修改了hadoop的配置后，希望立即生效，但是线上还有任务在执行，不能重启，可以执行以下命令让修改后的hdfs/yarn配置生效； 0、刷新yarn集群的队列执行命令： ${HADOOP_HOME}/bin/yarn rmadmin -refreshQueues 或 yarn rmadmin -refreshQueues 　　 1、动态刷新hdfs配置如果是
Spark 程序打包在集群运行2022-05-27 22:33:08

环境准备 1、pom 文件引入相关依赖&插件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version>
Hadoop-day06(MapReduce设计理念)2022-05-27 08:32:22

一、MapReduce设计理念 map--->映射 reduce--->归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架在线：实时数据处理离线：数据处理时效性没有在线那么强，但是相对也需要很快得到结果 mapreduce不会马上得到结果，他会有一定的延时（磁盘IO）如果数据量小，使用mapre
1-HDFS+MapReduce2022-05-26 01:34:03

Hadoop的框架最核心的设计就是：HDFS，MapReduce（mr） HDFS1.0 hdfs: 分布式文件系统，主要用于存储海量数据 MapReduce: 用户海量数据的计算 hdfs 本身是一个master slave 架构 namenode（nn）是主 datanode(dn) 是从 SecondaryNameNode(snn) 并不是nn的一个备份 namenode 是一个进
大数据Hadoop之——Kafka 图形化工具 EFAK（EFAK环境部署）2022-05-26 00:31:42

目录一、概述二、EFAK架构三、EFAK数据采集原理四、安装Kafka1）Kafka下载2）配置环境变量3）创建logs目录4）修改kafka配置5）修改zookeeper配置6）配置Zookeeper myid7）开启Kafka JMX监控8）将kafka目录推送到其它节点9）启动服务五、安装EFAK1）下载EFAK2）创建数据库2）设置环境变量3）配置4）调整启动参
HBase 通过api实现表的操作2022-05-25 16:34:29

（1）环境准备　　需要用到hadoop、hbase、zookeeper （2）配置pom.xml文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0
Linux 安装编译环境修改pom2022-05-24 22:04:46

环境准备maven（下载安装，配置环境变量，修改sitting.xml加阿里云镜像）gcc-c++zlib-develautoconfautomakelibtoolmaven通过yum安装即可 yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtoolyum install maven -y 1. 下载、安装并编译LZO wget http://www.oberhu
Flink1.15.0 ON YARN集群安装2022-05-23 20:01:26

安装准备： hadoop3.2.2, flink1.15.0 在成功安装hadoop3.2.2的基础上，采用YARN模式安装Flink1.15。 1.在/etc/profile文件中追加配置： export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop 2.修改hadoop相关配置：在conf文件夹中hadoop-env.sh文件中，添加配置： export HADOOP_CONF_DIR
hadoop2.7.6(一)2022-05-22 22:33:15

一、hadoop的发展二、hadoop框架 Hadoop Common：基础型功能 Hadoop Distributed File System (HDFS™)：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。负责存放数据 Hadoop YARN：作业调度和集群资源管理的框架。负责资源的调配 Hadoop MapReduce：基于 YARN 的系统，用于并行
大数据Hadoop之——数据分析引擎Apache Pig2022-05-22 19:04:59

目录一、Apache Pig概述二、Apache Pig架构1）架构图2）Apache Pig组件1、Parser（解析器）2、Optimizer（优化器）3、Compiler（编译器）4、Execution engine（执行引擎）三、Apache Pig安装1）下载Apache Pig2）配置环境变量3）修改配置四、Apache Pig执行模式1）本地模式2）Tez 本地模式3）Spark 本地模式4）MapRe
如何安装hadoop集群2022-05-21 23:01:29

三台机器上传压缩包并解压 cd /kkb/soft/ tar -xvzf hadoop-3.14.tar.gz -C /kkb/install bin/hadoop checknative #查看一下openssl的状态如果为false 那么所有的机器都需要在线安装 openssl-devel sudo yum -y install openssl-devel #三台机器都要装 mv hadoop-3.14 hadoop
hadoop 集群机器准备2022-05-21 22:33:05

根据种子机器克隆三台虚拟机更改克隆机器的IP地址启动虚拟机更改三台机器的IP地址为 192.168.12.129 192.168.12.130 192.168.12.131 vim etc/sysconfig/network-scripts/ifcif-ens3 第一台 IPADDR=192.168.12.129 NETMASK=255.255.255.0 GATEWAY=192.168.12.2 DNS1=8.8.8.
大数据Hadoop之——任务调度器Oozie（Oozie环境部署）2022-05-21 19:34:24

目录一、概述二、Oozie架构三、Oozie环境部署（Oozie与CDH集成）1）添加服务2）将 Oozie 服务添加到 CDH3）自定义角色分配4）数据库设置5）审核更改6）开始自动安装并自启四、CDH的 Hue 整合 Oozie五、Oozie简单使用1）在Hue上操作Oozie1、利用 Hue 调度 shell 脚本2、利用 Hue 调度 hive 脚本3、
Hadoop环境搭建2022-05-21 16:03:56

Hadoop的发展史 Google 爬取全球的网站，然后计算页面的PageRank 要解决网站的问题： a：这些网站怎么存放 b：这些网站应该怎么计算发布了三篇论文 a：GFS(Google File System) b：MapReduce(数据计算方法) c：BigTable：HBase Hadoop三大开源发行版本：Apache、Cloudera、Hortonworks。A
Hadoop-day01_(java代码模拟hadoop存储数据)2022-05-21 00:03:16

hadoop文件切分思想需求：统计文本文件中的各个班级的人数（一共多到数不清的人） 1500100129,容寄南,23,女,文科三班 1500100130,宁怀莲,21,女,理科四班 1500100131,胡昊明,22,男,文科六班 1500100132,曾安寒,22,女,文科五班 1500100133,钱向山,24,女,理科二班 1500100134,计宣朗,22,
大数据Hadoop之——Hadoop图形化管理系统Hue（Hue环境部署）2022-05-20 22:03:46

目录一、概述二、Hue架构三、Hue安装1）安装数据源2）安装docker3）通过Docker快速安装3）通过CM安装集成到CDH1、添加服务2、将 Hue 服务添加到 CDH3、自定义角色分配4、数据库设置5、安装完成6、启动hue服务7、创建账户4）官方demo演示四、Hue简单使用1）通过Hue操作HDFS2）通过Hue操作Impala3
Hadoop四到十三章总和2022-05-20 17:00:09

四、Hadoop安装将软件包hadoop和jdk传入 1.配置网络信息、主机名以及主机名与IP地址的映射关系(在所有节点上执行) vi /etc/sysconfig/network-scripts/ifcfg-网卡名 TYPE=Ethernet NAME=网卡名 DEVICE=网卡名 BOOTPROTO=static ONBOOT=yes IPADDR=你自己的IP NETMASK=255.255.25
第13章大数据平台监控命令2022-05-20 15:03:37

13、实验任务一:监控大数据平台状态 6，9，13 步骤一：查看 Linux 系统的信息（uname -a） [root@master ~]# uname -a Linux master 3.10.0-693.el7.x86_64 #1 SMP Tue Aug 22 21:09:27 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux 步骤二：查看硬盘信息（1）查看所有分区（fdisk -l) [root@mas
Hadoop集群模式安装笔记2022-05-19 01:34:34

前言 Hadoop集群=HDFS集群+YARN集群特点：两个集群逻辑上分离，通常物理上在一起；并且都是标准的主从架构集群 Hadoop安装方式一源码编译安装方式二官方编译安装包 (✔) 环境 Centos +虚拟机集群规划服务器运行角色 node1.itcast.cn namenode datanode resourcemanager
十三.大数据平台监控2022-05-17 15:35:53

一、监控大数据平台查看Linux系统信息 [root@master ~]# uname -a Linux master 4.18.0-373.el8.x86_64 #1 SMP Tue Mar 22 15:11:47 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux 查看硬盘信息查看分区 [root@master ~]# fdisk -l Disk /dev/sda: 20 GiB, 21474836480 bytes, 419
HDFS High Availability（HA）高可用配置2022-05-15 16:33:31

高可用性（英语：high availability，缩写为 HA） IT术语，指系统无中断地执行其功能的能力，代表系统的可用性程度。是进行系统设计时的准则之一。高可用性系统意味着系统服务可以更长时间运行，通常通过提高系统的容错能力来实现。高可用性或者高可靠度的系统不会希望有单点故障造成整体故障

首页 < 4 5 6 7 8 > 尾页

ICode9

ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景2022-05-31 00:01:42

Hadoop分布式文件系统---HDFS2022-05-30 23:04:14

实验一 Hadoop的搭建2022-05-30 20:01:10

MapReduce2022-05-29 11:01:31

Hadoop-动态刷新hdfs/yarn配置2022-05-28 12:31:33

Spark 程序打包在集群运行2022-05-27 22:33:08

Hadoop-day06(MapReduce设计理念)2022-05-27 08:32:22

1-HDFS+MapReduce2022-05-26 01:34:03

大数据Hadoop之——Kafka 图形化工具 EFAK（EFAK环境部署）2022-05-26 00:31:42

HBase 通过api实现表的操作2022-05-25 16:34:29

Linux 安装 编译环境 修改pom2022-05-24 22:04:46

Flink1.15.0 ON YARN集群安装2022-05-23 20:01:26

hadoop2.7.6(一)2022-05-22 22:33:15

大数据Hadoop之——数据分析引擎Apache Pig2022-05-22 19:04:59

如何安装hadoop集群2022-05-21 23:01:29

hadoop 集群机器准备2022-05-21 22:33:05

大数据Hadoop之——任务调度器Oozie（Oozie环境部署）2022-05-21 19:34:24

Hadoop环境搭建2022-05-21 16:03:56

Hadoop-day01_(java代码模拟hadoop存储数据)2022-05-21 00:03:16

大数据Hadoop之——Hadoop图形化管理系统Hue（Hue环境部署）2022-05-20 22:03:46

Hadoop四到十三章总和2022-05-20 17:00:09

第13章 大数据平台监控命令2022-05-20 15:03:37

Hadoop集群模式安装笔记2022-05-19 01:34:34

十三.大数据平台监控2022-05-17 15:35:53

HDFS High Availability（HA）高可用配置2022-05-15 16:33:31

Linux 安装编译环境修改pom2022-05-24 22:04:46

第13章大数据平台监控命令2022-05-20 15:03:37