ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

ACP-大数据分析师错题本

2021-07-06 13:04:47  阅读:207  来源: 互联网

标签:数据分析 存储 哪些 分析师 Hadoop 错题 ACP 键值 数据


1.存储数据类型

  • OSS:适合视频,图片等信息
  • MySQL:不适合存储非结构化数据
  • HBASE:适合NOSQL,多版本数据松散存储
  • MongDB:适合JSON存储

2.HDFS:

存储格式面向行,面向列

分布式文件系统,并不可能只允许单机服务器

解决昂贵服务器的问题

3.Hadoop不适合存储大量小文件

4.数据质量的五个维度:数据一致性(用于度量哪些数据的值在信息含义上是冲突的),数据唯一性(哪些数据是重复的,或数据的哪些属性是重复的),数据时效性(数据随时间的完整变化过程数据),数据准确性(用于度量哪些数据和信息是不正确的,或者数据是超期的),数据完整性(用于度量哪些数据丢失或不可用)

规范性(哪些数据未按统一格式存储),关联性(哪些关联数据缺失或未建立索引)

5.KPI一般指关键绩效指标法,关键指标比如数量(销售量)

6.模型拟合不足是训练误差和验证误差都很大,-> 欠拟合

7.硬盘大小:(原始数据+中间数据+结果数据)*副本数量 
8.msp处理任务的工作和作用:

1)读取输入文件,把每一行解析成键值对,每一个键值对调用一次Map函数

2)对传入的键值对,覆盖map函数,实现自己的逻辑,处理键值对输出心得键值对

3)根据键值对键值对精心分区

4)对不同的分区进行数据排序分组,把相同key的value放在一起集合

9.项目请况分析,问题界定,确定项目目标因素,建立项目目标体系,各目标关系确认

10.数据分析重要环节:数据采集,数据建模(处理),数据分析,指标报告

11.功能

Hive:基于hdfs的数据库服务,支持海量数据处理,不支持实时流处理,主要进行批处理

spark:快速通用的hadoop数据计算引擎,支持多种位用

Ambari:建立配置和管理hadoop的工具,可视化界面,简化系统管理和维护

pig:大规模数据分析平台,将类似sql的数据分析请求转换为一系列经过优化处理的MapReduce运算。   批处理,流式

HBASE:列式存储,多用于ELK工作,可以离散存储不是主要功能

12.HDFS元数据采用镜像文件(FSImage)+日志文件(editlogs)备份

FSNameSystem:是NameNode实际记录信息

13.Hadoop MapReduce:批处理计算引擎

HDFS:分布式数据存储

Hadoop  Yarn:大数据平台资源调度

Hadoop Hive :数据仓库工具

14.逻辑回归可以解决非线性问题

15.联机分处理:

快速行,可分析性,多维性,信息性

钻取,切片,切块,旋转(转轴)

17.指标十大要素:指标名称。定义,类属,作用计算方法,计量单位,空间规定,时间规定,指标数值及功能含义,基础数据取得方式

18.分类:定性分析,离散变量预测

回归:定量输出,连续变量预测

19.分类:有监督学习,需要有标注结果训练数据   K最近邻

聚类:无监督学习

标签:数据分析,存储,哪些,分析师,Hadoop,错题,ACP,键值,数据
来源: https://blog.csdn.net/didadu/article/details/118518034

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有