ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

04 Hadoop思想与原理2

2021-10-23 17:31:51  阅读:117  来源: 互联网

标签:Nutch 04 Hadoop 开源 版本 原理 数据 节点


1.用图与自己的话,简要描述Hadoop起源与发展阶段。(作业3中剪过来)

HADOOP创始人:

从与谷歌系统的关系,关键时间节点,1.x,2.x与3.x的区别,不同公司发行版本等方面来讲。

Hadoop是Apache旗下的一个用java语言实现的开源软件框架,是一个开发和运行处理大规模数据的软件平台。

Hadoop是Apache Lucene的创始人Doug Cutting创建的。起源于Nutch,Nutch的设计目标是构建一个大型的全网搜索引擎。在2004年的时候谷歌推出了MapReduce系统,同时,Nutch的开发人员以谷歌的技术为基础,开发实现了HDFS和MAPREDUCE,并从Nutch脱离成为独立的项目HADOOP,并开始了迅速的发展。hadoop的开发多基于谷歌的论文技术,因此hadoop的发展离不开谷歌。

版本不同:

1.X版本系列:第二代开源版本,主要修复了0.X版本的bug,现在已经被淘汰。

2.X版本系列:架构产生重大的变化,引入了yarn平台等特性,是现在的主流版本。

3.X版本系列:对HDFS、MapReduce、yarn都有较大的升级,增加了Ozone key-value存储。

发行版本主要分为免费开源版本和收费版本

Apache就是免费开源版本,靠全世界的优秀开源贡献者维护,更新较快。

HortonWorks,由雅虎主导的免费开源软件,有一整套的WEB管理界面。

Cloudera是收费版本。是美国一家大数据公司在apache的开源hadoop的版本上,修复了补丁,实现版本之间稳定运行

2.用图与自己的话,简要描述名称节点、数据节点的主要功能及相互关系、名称节点的工作机制。

名称节点:目录、类型、权限等元数据  

名称节点(NameNode)负责管理分布式文件系统的命名空间(Namespace),保存了两个核心的数据结构,即FsImage和EditLog
FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。

数据节点:真实数据  数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表

标签:Nutch,04,Hadoop,开源,版本,原理,数据,节点
来源: https://www.cnblogs.com/tt1102/p/15449070.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有