一、搭建高可用集群 1.1 zookeeper搭建 1、上传安装包到master并解压 tar -xvf zookeeper-3.4.6.tar.gz 2、配置环境变量 vim /etc/profile export ZOOKEEPER_HOME=/usr/local/soft/zookeeper-3.4.6export PATH=$PATH:$ZOOKEEPER_HOME/binsource /etc/profile 3、修改配置文件
Hadoop的由来 Google 爬取全球的网站,然后计算页面的PageRank 要解决网站的问题: a:这些网站怎么存放 b:这些网站应该怎么计算 发布了三篇论文 a:GFS(Google File System) b:MapReduce(数据计算方法) c:BigTable:HBase Doug cutting 花费了自己的两年业余时间,将论文实现了出来 ;.
文件的更名和移动: 获取文件详细信息 遇到的问题:不能直接在web上上传文件。 权限问题:修改后即可正常创建 参考:https://blog.csdn.net/weixin_44575660/article/details/118687993
hadoop搭建 准备工作 三台虚拟机:master、node1、node2 检查时间是否同步:date 检查java的jdk是否被安装好:java-version 修改主机名 三台分别执行 vim /etc/hostname 并将内容指定为对应的主机名 关闭防火墙:systemctl stop firewalld a.查看防火墙状态:systemctl statu
目录一、背景1)小文件是如何产生的?2)文件块大小设置3)HDFS分块目的二、HDFS小文件问题处理方案1)Hadoop Archive(HAR)2)Sequence file3)CombineFileInputFormat4)开启JVM重用5)合并本地的小文件,上传到 HDFS(appendToFile )6)合并 HDFS 的小文件,下载到本地(getmerge)三、HDFS小文件问题处理实战操
目录一、概述二、Hadoop DataNode多目录磁盘配置1)配置hdfs-site.xml2)配置详解1、 dfs.datanode.data.dir2、dfs.datanode.fsdataset.volume.choosing.policy3、dfs.datanode.available-space-volume-choosing-policy.balanced-space-preference-fraction4、dfs.datanode.available
HDFS API操作 在Windows上操作hadoop,需要添加hadoop依赖,我的hadoop是3.3.1版本的,我用的依赖是3.2.0的,需要配置环境变量 PATH添加如下路径: 然后双击依赖中的 一闪而过就是成功的。 在maven项目中添加如下依赖 <dependencies> <!-- https://mvnrepo
数据是什么 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。 它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客
一、HDFS概述 1.1、HDFS产出背景及定义 1.1.1、HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式
启动kafka时出现错误 问题就发生在logs文件 ERROR Shutdown broker because all log dirs failed:意思大概是所有的log文件不能用,这样的情况可能是权限问题 那么进入logs查看 当前我们的用户是hadoop,而log文件都是root用户所属,因此可以通过修改权限所属解决 sudo chown
学习课程是B站上的黑马程序员 第一阶段主要是基础的概念,数据、大数据;大数据特点;数据分析的基本流程、方向;分布式、集群;操作系统,虚拟机。基本上就是这些基本概念的学习。 第二阶段是虚拟机的安装,centos操作系统的导入,创建根用户,一般密码都是123456。 这是找的补充的课程 借鉴的博客
MapReduce 思想 MapReduce 是 Google 提出的一个软件架构,用于大规模数据集的并行运算。概率“Map(映射)”和“Reduce(归约)”以及它们的思想都是从函数式编程语言借鉴的,还有从矢量编程语言借来的特性。 当前的软件实现是指定一个“Map”函数,用来把一组键值对映射成一组新的键值对,指
这周我对ssm框架进行了更深一步的开发,加入了多用户,并对除登录外的请求进行了拦截,这样用户在未登录的时候是访问不到资源的。并且对hadoop进行了初步的学习,包括虚拟机的安装等等。 下周会对hadoop进行更深一步的学习,加油!
https://download.csdn.net/download/weixin_38583278/12844195?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166031563616782388063085%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=166031563616782388063085&a
查看文件目录的健康信息 执行如下的命令: hdfs fsck /user/hadoop-twq/cmd 可以查看 /user/hadoop-twq/cmd 目录的健康信息: 其中有一个比较重要的信息,就是Corrupt blocks,表示损坏的数据块的数量 查看文件中损坏的块 (-list-corruptfileblocks) [hadoop-twq@master ~]
配置workers 进入hadoop/etc/hadoop 编辑workers文件 然后分发给另外两个服务器 准备启动集群 第一次需要初始化. 初始化完成后增加了data文件 , 进入上面那个路径,就能看到当前服务器的版本号 启动HDFS 启动完毕 102
平台搭建(伪分布式) 伪分布式搭建 在VM中搭建std-master 修改配置文件 centos7-cl1.vmdk std-master.vmx - 将配置文件中vm的版本号改成自己电脑对应的vm版本 修改客户端的操作系统为centos 7 64位 打开虚拟机 修改虚拟机网络 cd /etc/sysconfig/network-scripts
案例要求 java编写 package udtf; import org.apache.hadoop.hive.ql.exec.UDFArgumentException; import org.apache.hadoop.hive.ql.metadata.HiveException; import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF; import org.apache.hadoop.hive.serde2.objectinspect
前言通过在Hadoop1安装Hadoop,然后配置相应的配置文件,最后将Hadoop 所有文件同步到其他Hadoop节点。 一、集群规划#主机名‘master/hadoop1’ ‘slave01/hadoop2’ ‘slave02/hadoop3’ #启动节点Namenode Nodemanager Nodemanager
1.先杀死进程(先进入到hadoop版本文件里,我的是 /opt/module/hadoop-3.1.3/) sbin/stop-dfs.sh 2.删除每个集群上的data以及logs rm -rf data/ logs/ 3.格式化 hdfs namenode -format 4.再启动 sbin/sart-dfs.sh
hadoop API就是在windows上进行环境配置,远程操作linux的hdfs,今天学习的是将在终端上的命令转换为代码,通过代码对hadoop上面的数据远程操作,练习的命令有文件上传、下载、创建目录、删除、更名和移动、获取文件信息、查看文件类型 代码的操作使用Java编写,用到maven、单元测
环境:OS:Centos 7ES:6.8.5 1.下载注意下载的版本需要与ES的版本保持一致wget https://artifacts.elastic.co/downloads/kibana/kibana-6.8.5-linux-x86_64.tar.gz 2.解压安装[root@hadoop-slave1 soft]# tar -xvf kibana-6.8.5-linux-x86_64.tar.gz[root@hadoop-slave1 soft]# mv
脚本 安全拷贝scp 可以实现服务器与服务器之间数据的拷贝 基础语法 scp -r root@user2:/opt/moudle/* root@user3:/opt/moudle/ 从user2 拷贝到user3所在的主机时user4 scp -r root@user2:/opt/moudle/* ./ 将user2 moudle文件夹内的
应建民哥的要求安装hadoop 安装的步骤是按照网上来的,先配置java环境,这个我早已经配置好,然后下载hadoop 安装hadoop3.3,保存至c盘目录下 下载hadooponwindows-master,将其中的bin 和etc替换到hadoop中,再配置hadoop的环境变量 Path添加hadoop环境 再修改 h
大数据 大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现里和流程优化能力的海量、高增长率和多样化的信息资产。通常都是 TB、PB、EB级别的数据。 大数据主要解决海量数据的采集、存储和分析计