ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

数据仓库的初识

2019-09-04 18:02:44  阅读:197  来源: 互联网

标签:join 数据仓库 查询 OLAP 初识 SQL 数据


数据仓库技术 https://blog.csdn.net/zzq900503/article/details/78405958#commentBox

从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。
一、数据获取

实现ETL转换的过程体现为以下几个方面:
1、空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。
2、规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。
3、拆分数据(使用UDF函数):依据业务需求对字段可进行分解。
4、验证数据正确性:可利用Lookup及拆分功能进行数据验证。
5、数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。
6、建立ETL过程的主外键约束:对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。

二、数据存储
常见的数仓模型:

星型模型的设计方式主要带来的好处是能够提升查询效率,因为生成的事实表已经经过预处理,主要的数据都在事实表里面,
所以只要扫描实时表就能够进行大量的查询,而不必进行大量的join,其次维表数据一般比较少,
在join可直接放入内存进行join以提升效率,除此之外,星型模型的事实表可读性比较好,不用关联多个表就能获取大部分核心信息,
设计维护相对比较简单。

雪花模型的设计方式是比较符合数据库范式的理念,设计方式比较正规,数据冗余少,
但在查询的时候可能需要join多张表从而导致查询效率下降,此外规范化操作在后期维护比较复杂。

为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。
在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。
需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。

Hadoop平台下的Hive,Spark平台下的Spark SQL都是各自生态圈内应用最热门的配套工具,而它们的本质就是开源分布式数据仓库。
,开发成本应更多集中在数据仓库层,不断加大数据建设的投入。
因为一旦规范、标准、高性能的数据仓库建立好了,在之上进行数据分析、数据挖掘、跑推荐算法等都是轻松惬意的事情。

三、数据访问
数据仓库建设好以后,用户就可以编写SQL语句对其进行访问并对其中数据进行分析。但每次查询都要编写SQL语句的话,
未免太麻烦,而且对维度建模数据进行分析的SQL代码套路比较固定。
于是,便有了OLAP工具,它专用于维度建模数据的分析。而BI工具则是能够将OLAP的结果以图表的方式展现出来,
它和OLAP通常出现在一起。(注:本文所指的OLAP工具均指代这两者。)

数据可视化选型
他们在hive上做大数据量的分析,计算结果放到oracle上做BI展示和计算 hadoop MR or hive上ETL计算完的结果表,同步到oracle中,连接传统BI工具

两种数据库的区别:
(1)OLTP(操作性数据系统)是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
(2)OLAP(分析型数据系统)是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并支持提供直观易懂的查询结果,

标签:join,数据仓库,查询,OLAP,初识,SQL,数据
来源: https://blog.csdn.net/sheep8521/article/details/100544182

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有