ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

预处理复习笔记

2022-01-01 21:37:25  阅读:110  来源: 互联网

标签:转换 复习 步骤 作业 笔记 执行 数据 预处理 属性


  1. 数据的质量问题(衡量指标)主要包括哪些方面?

    答:准确性、完整性、一致性、相关性、时效性和可信性可解释性

  2. 数据的准确性?

    答:数据的准确性是指数据是正确的,数据存储在数据库中的值对应于真实世界的值。

  3. 造成数据不准确的原因有哪些?

    答:比如数据的收集设备出现故障;人为输入的数据错误;数据在传输过程中出错;命名约定、数据代码、输入字段的格式不一致等都能导致数据不准确。

  4. 数据的完整性?

    答:数据的完整性是指信息具有一个实体描述的所有必需的部分,在传统关系型数据库中,完整性通常与空值(NULL)有关,一般包括记录的缺失和记录属性的缺失。

  5. 造成数据的完整性缺失的原因有哪些?

    答:比如涉及个人隐私,无法获取相关属性;数据输入时,由于人为的疏漏导致;数据输入或传输时,由于机器的故障导致等。

  6. 数据的一致性?

    答:数据的一致性是指在数据库中,不同地方存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。

  7. 数据的不一致性有哪些?

    答:逻辑不一致、记录规范不一致、数据冗余时内容不一致。

  8. 数据的时效性?

    答:数据的时效性是指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约着决策的客观效果。

  9. 数据预处理的目?

    答:目的是提升数据的质量,使其能够满足数据挖掘的需求,保证数据挖掘的正确性和有效性。

  10. 数据预处理的流程。

    答:数据处理的流程为数据采集、数据清理、数据集成、数据变换、数据规约。

  11. 数据清理的主要任务?

    答:填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性问题。

  12. 数据集成?

    答:数据集成就是将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。

  13. 数据规约?

    答:数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。

  14. 数据变换?

    答:数据变换是指将数据从一种表现形式变为另一种表现形式的过程。

  15. 数据仓库?

    答:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

  16. 数据仓库的特征?

    答:数据仓库的特征主要有:面向主题,数据是集成的,数据是不可更新的(相对稳定的),数据是随时间不断变化的(反映历史变化的)。

  1. Pandas是什么?

    答:Pandas是一个基于BSD开源协议的开源库,提供了用于python编程语言的高性能、易于使用的数据结构和数据分析工具。

  2. SCD(缓慢变化维度表)三种类型的处理方式。

    答:类型1:业务主体数据发生变化时,用当前最新数据覆盖旧数据,只保留最新版本数据。类型2:业务主体数据发生变化时,用当前最新数据生成新的数据行,保存多个历史版本。类型3:业务主体数据发生变化时,用当前最新数据生成新的记录,并且在该行记录中记录上一个版本部分关键信息。

  3. Pandas提供了哪些数据结构?这些数据结构分别处理的是什么类型的数据?

    答:pandas提供的数据的数据结构包括系列Series、数据帧DataFrame、面板Panel,其中系列处理的是一维数据,数据帧处理二维数据,面板处理三维数据,面板Panel即将被弃用,改用多级索引的DataFrame处理三维数据。

  4. 代理键与业务键?

    答:代理键:为了确定维度表中唯一的行而增加的键

    业务主键:来源于源系统的业务,是业务主体的唯一标识

  5. CDC(变化数据捕获)的认识。

    答: 识别出变化的数据并只导入这部分数据被称为变化数据捕获。

    CDC大体可以分为两种:(1)侵入式:是指CDC操作会给源系统带来性能的影响。(2)非侵入式:对源系统不具有侵入性。

    CDC变化数据捕获的方法:

    (1)时间戳方法(2)快照方法 (3)触发器方式(4)日志方式

  6. kettle作业与转换的理解

    答:作业:一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳(Hop)和每个作业项的执行结果来决定。

    转换:转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据行的各种操作。转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库。

    一个作业项代表了一项工作,而转换是一种作业项,即作业里面可以包括多个转换。

    转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。数据流的另一个同义词就是记录流。

    除了步骤和跳,转换还包括了注释,注释是一个小的文本框,可以放在转换流程图的任何位置。注释的主要目的是使转换文档化。

    作业项与转换步骤的区别:1、作业项可以有影子拷贝;2、作业项之间传递一个结果对象;3、 可以并行执行

    作业项执行后会返回一个结果对象,包含如下几种信息:1、一组数据行;2、一组文件名;3、读、写、输入、输出、更新、删除、拒绝的行数和转换里的错误数;4、脚本作业项的退出状态。

    作业项结果有两个作用,一是决定作业的执行路径,二是向下一个作业项传递一个结果对象。

    什么是作业的跳?跳是作业项之间的连接线,定义了作业的执行路径。

    在Kettle里,作业是使用一种回溯算法来执行作业里所有作业项的,而作业项运行结果(如真或者假)决定了执行路径。

    回溯算法:假设执行到了路径的某一个节点,要依次执行这个节点的所有子路径,直到没有再可以执行的子路径就返回上一个节点,再反复这一过程,是一个类似枚举的搜索尝试过程。

  7. pandas的使用(重点)

1.怎么样为属性填上缺失值?

(1)忽略元组 (2)人工填写缺失值 (3)使用一个全局常量填充缺失值 (4)使用属性的中心度量(如均值或中位数)填充缺失值 (5)使用与给定元组属同一类的所有样本的属性值或中位数(6)使用最可能的值填充缺失值

2.噪声数据

噪声是被测量变量的随机误差或方差

3.数据变换策略包括6种

(1)光滑 (2)属性构造 (3)聚集 (4)规范化 (5)离散化 (6)有标称数据产生分层概念

4.数据规约策略包括:

维规约、数量规约、数据压缩

5。属性子集选择:

属性子集选择通过删除不相关或冗余的属性(或维)减少数据量

6.数据行:

数据以数据行的形式沿着步骤移动,一个数据行是零到多个字段的集合

7.数据清理的步骤

(1)计算器 (2)字符串替换 (3)字符串操作 (4)字符串剪切 (5)拆分字段 (6)值映射(7)字段现在(8)去除重复记录

8.字段清理:

拆分字段成多行、拆分字段、合并字段、字段选择

9.与转换的步骤相比作业项有3点不同:

(1)有影子复制 (2)作业项之间传递一个结果对象 (3)可以并行执行

10.回溯:

回溯算法就是假设执行到一条路径的某个节点,要依次执行这个节点的所有子路径,直到没有可执行的子路径时返回上一个节点,再反复这个过程

11.数据仓库:

是一个面向主题的、集成的、相对稳定反映·历史变化的数据集合,用于支持鼓励决策和信息的全局共享,它主要由维度表和事实表组成

Pandas非常适用于以下几种类型的数据。

(1)表格型的数据,(2)有序或无序的时间序列数据。(3 )带有行和列标签的矩阵数据。(4)各种统计、观测数据集。

维度表:主要存放基础属性;事实表:主要存放各个业务数据

image-20220101141732225

标签:转换,复习,步骤,作业,笔记,执行,数据,预处理,属性
来源: https://www.cnblogs.com/ywyc/p/15756139.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有