ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

大数据基础--学好大数据必看的文章

2019-10-25 21:01:35  阅读:244  来源: 互联网

标签:RAID 必看 学好 机柜 磁盘 服务器 数据 硬盘


大数据的项目流程

  1. 数据生产
  2. 数据采集
  3. 数据存储
  4. 需求分析
  5. 数据预处理
  6. 数据计算
  7. 数据存储
  8. 8.结果展现

大数据基础知识

目录

  • 什么是服务器?
  • 什么是RAID?
  • 什么是集群?
  • 什么是网络?
  • 什么是交换机、局域网?
  • 什么是网络拓扑、机架?
  • 网卡介绍
  • 高铁为什么快?

什么是服务器?

目标:掌握什么是服务器
服务器: 也称伺服器,是一种高性能计算机,提供计算服务的设备。
服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似
由于服务器需要提供高可靠的服务,所以在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
服务器和电脑功能都是一样的,也可以将服务器称之为电脑,只是服务器对稳定性与安全性以及处理器数据能力有更高要求。比如我们随时浏览一个网站,发现这个网站每天24小时都能访问,为什么呢?原因在于网站服务器不能关闭,要保证长时间稳定运行,并且要承受很多人同时访

服务器类型

按应用层次划分:
入门级服务器、工作组级服务器、部门级服务器和企业级服务器四类。
按用途划分:
通用型服务器、专用型服务器两类。

按机箱结构划分
塔式服务器
刀片式服务器
机架式服务器(1U、 2U、 4U) 1U=1.75英寸=4.445厘米(cm)
机柜式服务器
塔式服务器
塔式服务器是最容易理解的一种服务器结构类型,因为它的外形以及结构都跟我们平时使用的立式PC差不多,当然,由于服务器的主板扩展性较强、插槽也多出一堆,所以个头比普通主板大一些,因此塔式服务器的主机机箱也比标准的机箱要大,一般都会预留足够的内部空间以便日后进行硬盘和电源的冗余扩展。
在这里插入图片描述
内部结构
在这里插入图片描述
刀片服务器
刀片式服务器是指在标准高度的机架式机箱内可插装多个卡式的服务器单元,实现高可用和高密度。每一块"刀片"实际上就是一块系统主板。它们可以通过"板载"硬盘启动自己的操作系统,如Windows NT/2000、Linux等
在这里插入图片描述
机架服务器
机架式服务器的外形看来不像计算机,而像交换机,有1U(1U=1.75英寸=4.445CM)、2U、4U等规格。机架式服务器安装在标准的19英寸机柜里面。这种结构的多为功能型服务器
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
机柜式服务器
在一些高档企业服务器中由于内部结构复杂,内部设备较多,有的还具有许多不同的设备单元或几个服务器都放在一个机柜中,这种服务器就是机柜式服务器。机柜式通常由机架式、刀片式服务器再加上其它设备组合而成。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
存储磁盘(硬盘)
目标:掌握磁盘的种类及区别。
硬盘有机械硬盘(HDD)、固态硬盘(SSD)和固态混合硬盘(SSHD)之分。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
机械硬盘:
机械硬盘是传统的普通硬盘,主要由:盘片,磁头,盘片转轴及控制电机,磁头控制器,数据转换器,接口,缓存等几个部分组成。

固态硬盘(SSD)
固态硬盘是用固态电子存储芯片阵列而制成的硬盘,采用闪存颗粒来存储,SSD由控制单元和存储单元(FLASH芯片、DRAM芯片)组成。固态硬盘在接口的规范和定义、功能及使用方法上与普通硬盘的完全相同,在产品外形和尺寸上也完全与普通硬盘一致。

混合硬盘
1、防震抗摔性:机械硬盘都是磁碟型的,数据储存在磁碟扇区里。而固态硬盘是使用闪存颗粒(即内存)制作而成,所以SSD固态硬盘内部不存在任何机械部件,在发生碰撞和震荡时数据丢失的可能性降到最小。相较机械硬盘,固硬占有绝对优势。
2、数据存储速度:从PConline评测室的评测数据来看,固态硬盘相对机械硬盘性能提升2倍多。
3、功耗:固态硬盘的功耗上也要低于机械硬盘。
4、重量:固态硬盘在重量方面更轻,与常规1.8英寸硬盘相比,重量轻20-30克。
5、价格:截至目前(2018/11/20),品牌的128Gb 固态硬盘为150元左右。而1Tb 的机械硬盘价格才280左右。固态硬盘比起机械硬盘价格较为昂贵,性价比较低。
6、使用寿命:机械硬盘寿命长,固态硬盘寿命短。

什么是RAID

目标:了解什么是RAID,特点是什么,有哪些种类
RAID ( Redundant Array of Independent Disks )即独立磁盘冗余阵列,通常简称为磁盘阵列。简单地说, RAID 是由多个独立的高性能磁盘驱动器组成的磁盘子系统,从而提供比单个磁盘更高的存储性能和数据冗余的技术。RAID 是一类多磁盘管理技术,其向主机环境提供了成本适中、数据可靠性高的高性能存储。

RAID特点

RAID特点
(1) 大容量
  它扩大了磁盘的容量,由多个磁盘组成的 RAID 系统具有海量的存储空间。现在单个磁盘的容量就可以到 10TB 以上,这样 RAID 的存储容量就可以达到 PB 级。
(2) 高性能(分布式存储
   RAID 的高性能受益于数据条带化技术。单个磁盘的 I/O 性能受到接口、带宽等计算机技术的限制,性能往往很有限,容易成为系统性能的瓶颈。通过数据条带化, RAID 将数据 I/O 分散到各个成员磁盘上,从而获得比单个磁盘成倍增长的聚合 I/O 性能。
(3) 可靠性(更安全,防止数据丢失)
  可用性和可靠性是 RAID 的另一个重要特征。理论上由多个磁盘组成的 RAID 系统在可靠性方面应该比单个磁盘要差。这里有个隐含假定:单个磁盘故障将导致整个 RAID 不可用。 RAID 采用镜像和数据校验等数据冗余技术,打破了这个假定。 镜像是最为原始的冗余技术,把某组磁盘驱动器上的数据完全复制到另一组磁盘驱动器上,保证总有数据副本可用。
(4) 可管理性
  RAID 是一种虚拟化技术,它对多个物理磁盘驱动器虚拟成一个大容量的逻辑驱动器。对于外部主机系统来说, RAID 是一个单一的、快速可靠的大容量磁盘驱动器。这样,用户就可以在这个虚拟驱动器上来组织和存储应用系统数据。 从用户应用角度看,可使存储系统简单易用,管理也很便利。
RAID种类
RAID(0-7)、RAID00、RAID10、RAID01、RAID100、RAID30、RAID50、RAID60、
常用的RAID 等级有 RAID0 、 RAID1 、 RAID10 、 RAID01 和 RAID5 。

RAID0
RAID0 是一种简单的、无数据校验的数据条带化技术。实际上不是一种真正的 RAID ,因为它并不提供任何形式的冗余策略。 RAID0 将所在磁盘条带化后组成大容量的存储空间,将数据分散存储在所有磁盘中,以独立访问方式实现多块磁盘的并读访问。由于可以并发执行 I/O 操作,总线带宽得到充分利用。再加上不需要进行数据校验,RAID0 的性能在所有 RAID 等级中是最高的。
  RAID0 具有低成本、高读写性能、 100% 的高存储空间利用率等优点,但是它不提供数据冗余保护,一旦数据损坏,将无法恢复。 因此, RAID0 一般适用于对性能要求严格但对数据安全性和可靠性不高的应用,如视频、音频存储、临时数据缓存空间等。
  
RAID1
RAID1 称为镜像,它将数据完全一致地分别写到工作磁盘和镜像 磁盘,它的磁盘空间利用率为 50% 。 RAID1 在数据写入时,响应时间会有所影响,但是读数据的时候没有影响。 RAID1 提供了最佳的数据保护,一旦工作磁盘发生故障,系统自动从镜像磁盘读取数据,不会影响用户工作。
  RAID1 与 RAID0 刚好相反,是为了增强数据安全性使两块 磁盘数据呈现完全镜像,从而达到安全性好、技术简单、管理方便。 RAID1 拥有完全容错的能力,但实现成本高。 RAID1 应用于对顺序读写性能要求高以及对数据保护极为重视的应用,如对邮件系统的数据保护。

RAID5
   RAID5是有数据校验的数据条带化技术,数据分布在阵列中的所有磁盘上,使用校验盘技术,按照块的方式来组织数据,校验数据分布在阵列中的所有磁盘上。
应该是目前最常见的 RAID 等级,对于数据和校验数据,它的写操作可以同时发生在完全不同的磁盘上。RAID5 还具备很好的扩展性。当阵列磁盘 数量增加时,并行操作量的能力也随之增长。
  RAID5 兼顾存储性能、数据安全和存储成本等各方面因素,它可以理解为 RAID0 和 RAID1 的折中方案,是目前综合性能最佳的数据保护解决方案。 RAID5 基本上可以满足大部分的存储应用需求,数据中心大多采用它作为应用数据的保护方案。

什么是集群?

目标: 掌握什么是集群、什么是网络、什么是交换机、局域网、
了解什么是网络拓扑、网络的种类及优缺点、IDC数据中心。

集群是一组相互独立的、通过高速计算机网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。
计算机集群简称集群是一种计算机系统, 它通过一组松散集成的计算机软件/硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能价格比要高得多。

什么是计算机网络
计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统,网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。

什么是交换机
交换机(Switch)意为“开关”是一种用于电(光)信号转发的网络设备。它可以为接入交换机的任意两个网络节点提供独享的电信号通路。最常见的交换机是以太网交换机。其他常见的还有电话语音交换机、光纤交换机等。

什么是局域网?
局域网是指在某一区域内由多台计算机互联成的计算机组。一般是方圆几千米以内。局域网可以实现文件管理、应用软件共享、打印机共享、工作组内的日程安排、电子邮件和传真通信服务等功能。局域网是封闭型的,可以由办公室内的两台计算机组成,也可以由一个公司内的上千台计算机组成。

什么是网络拓扑
网络拓扑(Network Topology)结构是指用传输介质互连各种设备的物理布局。指构成网络的成员间特定的物理的即真实的、或者逻辑的即虚拟的排列方式。

以太网络
优点:
是当前局域网的实时标准,配置方便,即插即用,软件支持丰富。
价格便宜,随处可得。
缺点:
无论是延迟还是吞吐量都不如一些专用网络。
用途:
是构建局域网最方便的方式。
现在被广泛用于云计算中的大规模数据处理集群中。
常见的带宽,1Gbps以及10Gbps。

InfiniBand网络
优点:
延迟极低(不到400纳秒)、很高吞吐量(高达40Gbps)。
结构先进(Offloading Engine,Zero Copy)。
缺点:
价格较贵、软件支持较少。
影响较低,与传统以太网络不兼容。
用途:
多用于高性能计算领域。
常见的带宽,10Gbps,20Gbps以及40Gbps。

什么是机架?
全称为机架式服务器,是用于固定电信柜内的接插板、外壳和设备。通常宽19英寸,高7英尺。对于IT行业,可简单理解为存放服务器的机柜。
机柜一般是冷轧钢板或合金制作的用来存放计算机和相关控制设备的物件,可以提供对存放设备的保护,屏蔽电磁干扰,有序、整齐地排列设备,方便以后维护设备。机柜一般分为服务器机柜、网络机柜、控制台机柜等。

IDC数据中心
互联网数据中心(Internet Data Center)简称IDC,就是电信部门利用已有的互联网通信线路、带宽资源,建立标准化的电信专业级机房环境,为企业、政府提供服务器托管、租用以及相关增值等方面的全方位服务。

**

为什么和谐号、复兴号会这么快?(大数据为什么比传统数据库快的核心)

目标:了解老师火车与高铁速度差别的原因
在这里插入图片描述
在这里插入图片描述
原因在于(分布式动力
老式火车动力集中在一个车头。
和谐号、复兴号动力分布在多个车头、车厢。
在这里插入图片描述

标签:RAID,必看,学好,机柜,磁盘,服务器,数据,硬盘
来源: https://blog.csdn.net/Mr_Yang888/article/details/102749645

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有