ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

《数据清洗》第一章——数据清洗概述学习笔记

2021-09-10 18:06:17  阅读:280  来源: 互联网

标签:方法 数据源 第一章 质量 清洗 数据 缺失


学习目标

1、了解数据清洗的背景

2、了解数据清洗的定义

3、熟悉数据清洗的原理

4、掌握数据清洗的具体流程

5、了解常见数据清洗的策略和方法

1.1数据清洗的背景

     当今时代,企业信息化的要求越来越迫切。对于企业的决策者来说,正所谓“垃圾进垃圾出(garbage in,garbage out)”如果作为决策支持的数据仓库存放的数据质量达不到要求将直接导致数据分析和数据挖掘不能产生理想的结果,甚至还会产生错误的分析结果,从而误导决策。因此,我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用以支持企业战略决策。由此可见,数据质量在企业战略决策中占据着重要的地位。本节将讲解数据质量概述、数据质量的评价指标以及数据质量的问题分类。


1.1.1 数据质量概述

 数据质量是指在业务环境下,数据符合数据消费者的目的,能满足业务场景具体需求的程度。从适用性的角度看,数据质量是一个相对的概念(与决策有关)。

       数据质量的特点如下:

        1.“业务需求”会随时间变化,数据质量也会随时间变化。

        2.数据质量可以借助信息系统度量,但独立于信息系统存在。        

        3.数据质量存在于数据的整个生命周期,随数据的产生而产生,随数据的消失而消失。

1.1.2 数据质量的评价指标 

1.准确性

2.完整性

3.简洁性

4.适用性

1.1.3 数据质量的问题分类

数据质量的问题可以分为两类:一类是基于数据源的“脏”数据分类;另一类是基于清洗方式的“脏”数据分类。


1.基于数据源的“脏”数据分类

(1)单数据源问题

单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。由于数据模式和完整性约束控制了数据的范围,如果单数据源没有数据模式,就会对进人和存储的数据缺乏相应的限制,此时很有可能出现拼写错误的数据和不一致的数据。
(2)多数据源问题

单数据源情况下出现的问题在多数据源情况下变得更加严重。每个数据源中都有可能包含“脏"数据.而且每个数据源中的数据表示方法都各自不同.还有可能出现数据重复或矛盾冲突。因为在很多情况下,各个数据源都是为了满足某一个特定需要而单独设计、配置和维护,这很大程度上导致数据库管理系统数据模型模式设计和实际数据的异构性。


2.基于清洗方式的“脏”数据分类

基于数据源的“脏”数据分类方法需要为每种类型的“脏”数据设计单独的清洗方式。从数据清洗方式的设计者角度看,可以将“脏”数据分为“独立型“脏”数据”和“依赖型“脏”数据”两类。基于清洗方式的“脏”数据分类如图所示。

1.2 数据清洗的定义

 数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域,对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于3个领域,即数据 仓库领域、数据挖掘领域以及数据质量管理领域。

1.3 数据清洗的原理

1.4数据的清洗流程 

 一共分为5个步骤,它们分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。

1.5 数据清洗的策略

1.一般清洗策略

1)手工清洗策略,即人工修改
2)自动清洗策略,通过专门的程序进行修改
3)特定应用领域的清洗策略,根据概率统计学原理检测并修改数值异常记录
4)与特定应用领域无关的清洗策略,根据相关算法检测并删除重复记录

2.混合的数据清洗策略

  以自动清洗为主。

1.6 常见的数据清洗方法

1.缺失值的清洗
缺失值的清洗主要分为两类,及忽略缺失值数据和填充缺失值数据。
(1)忽略缺失值数据方法是直接通过删除属性或实例忽略缺失值的数据。
(2)填充缺失值数据方法是使用最接近缺失值的值替代缺失的值,包括人工填写缺失值,使用一个全局常量填充空缺值(即将缺失的值用同一个常量Unknown替换)以及使用属性的平均值、中间值、最大(小)值填充缺失值,或使用最可能的值(即通过回归、贝叶斯形式化方法的工具或决策树归纳确定的值)填充缺失值。
2.重复值的清洗
目前清洗重复值的基本思想是“排序和合并”。清洗重复值的方法主要有相似度计算和基于基本近邻排序算法等方法。
(1)相似度计算是通过计算记录的个别属性的相似度,然后考虑每个属性的不同权重值,进行加权平均后得到记录的相似度,若两个记录相似度超过某一个阈值,则认为两条记录匹配,否则认为这两条记录指向不同的实体。
(2)基于基本近邻排序算法的核心思想是为了减少记录的比较次数,在按关键字排序后的数据集上移动一个大小固定的窗口,通过检测窗口内的记录判定它们是否相似,从而确定并处理重复记录。
3.错误值的清洗
错误值的清洗方法主要包括使用统计分析的方法识别可能的错误值(如偏差分析、识别不遵守分布或回归方程的值)、使用简单规则库(即常识性规则、业务特定规则等)检测出错误值、使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值。

标签:方法,数据源,第一章,质量,清洗,数据,缺失
来源: https://blog.csdn.net/m0_47951947/article/details/120226230

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有