hadoop笔记

2022-01-13 12:34:18 阅读：289 来源： 互联网

标签：xml HDFS 调度 hadoop Yarn site 默认笔记

一、Hadoop入门
1、常用端口号
hadoop3.x
HDFS NameNode 内部通常端口：8020/9000/9820
HDFS NameNode 对用户的查询端口：9870
Yarn查看任务运行情况的：8088
历史服务器：19888
hadoop2.x
HDFS NameNode 内部通常端口：8020/9000
HDFS NameNode 对用户的查询端口：50070
Yarn查看任务运行情况的：8088
历史服务器：19888
2、常用的配置文件
3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers
2.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves

二、HDFS
1、HDFS文件块大小（面试重点）
硬盘读写速度
在企业中一般128m（中小公司） 256m （大公司）
2、HDFS的Shell操作（开发重点）
3、HDFS的读写流程（面试重点）
三、Map Reduce
1、InputFormat
1）默认的是TextInputformat kv key偏移量，v :一行内容
2）处理小文件CombineTextInputFormat 把多个文件合并到一起统一切片
2、Mapper
setup()初始化； map()用户的业务逻辑； clearup() 关闭资源；
3、分区
默认分区HashPartitioner ，默认按照key的hash值%numreducetask个数
自定义分区
4、排序
1）部分排序每个输出的文件内部有序。
2）全排序：一个reduce ,对所有数据大排序。
3）二次排序：自定义排序范畴，实现 writableCompare接口，重写compareTo方法
总流量倒序按照上行流量正序
5、Combiner
前提：不影响最终的业务逻辑（求和没问题求平均值）
提前聚合map => 解决数据倾斜的一个方法
6、Reducer
用户的业务逻辑；
setup()初始化；reduce()用户的业务逻辑； clearup() 关闭资源；
7、OutputFormat
1）默认TextOutputFormat 按行输出到文件
2）自定义
四、Yarn
1、Yarn的工作机制（面试题）

2、Yarn的调度器
	1）FIFO/容量/公平
	2）apache 默认调度器  容量； CDH默认调度器 公平
	3）公平/容量默认一个default ，需要创建多队列
	4）中小企业：hive  spark flink  mr  
	5）中大企业：业务模块：登录/注册/购物车/营销
	6）好处：解耦  降低风险  11.11  6.18  降级使用
	7）每个调度器特点：
		相同点：支持多队列，可以借资源，支持多用户
		不同点：容量调度器：优先满足先进来的任务执行
				公平调度器，在队列里面的任务公平享有队列资源
	8）生产环境怎么选：
		中小企业，对并发度要求不高，选择容量
		中大企业，对并发度要求比较高，选择公平。
3、开发需要重点掌握：
	1）队列运行原理	
	2）Yarn常用命令
	3）核心参数配置
	4）配置容量调度器和公平调度器。
	5）tool接口使用。

标签：xml,HDFS,调度,hadoop,Yarn,site,默认,笔记
来源： https://blog.csdn.net/Jackson_Father/article/details/122471214

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

hadoop笔记