标签:流式 Reduce MapReduce Yarn 单词 擅长 阶段
MapReduce的定义:
MapReduce是一个分布式运算程序的编程框架,是用户基于“Hadoop的数据分析应用”的核心框架
MapReduce核心功能是将用户编写的业务逻辑代码和自带的默认组件构成一个完整的分布式运算程序,并运行在Hadoop集群上
MapReduce的缺点:
1.不擅长做实时计算:无法像MySQL一样,在毫秒或者秒级别返回结构
2.不擅长流式计算:流式计算的输入数据是动态的,而MapReduce的输入数据集必须是静态的,不能动态变化 (SparkStreaming、flink擅长流式计算)
3.不擅长DAG(有向无环图)计算:多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下 (Spark擅长DAG中间的计算结果基于内存)
MapReduce的核心思想:
例如:给一个数据集统计其中每一个单词出现的总次数(查询结果:a-p一个文件,q-z一个文件)
MapReduce运算程序一般有两个阶段:Map和Reduce阶段
1.输入数据,按照128M切分数据(128M数据为一片),进入到map阶段
map阶段的MapTask,完全并行处理,互不干涉
2. 1)按照行读取数据,并进行处理 2) 按照空格切分每一行的单词 3)使用KV键值对的方式(k为单词,v定义为1)4)将按照KV键值对中的单词(k),按照首字母的方式,分成两个分区溢写到磁盘
3. Reduce阶段对Map阶段处理后数据进行汇总
Reduce阶段的并发ReduceTask,完全不相干
4.输出结果文件
如果用户的业务逻辑非常复杂,就只能多个MapReduce程序串行运行
标签:流式,Reduce,MapReduce,Yarn,单词,擅长,阶段 来源: https://www.cnblogs.com/hskq/p/16295532.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。