ICode9

精准搜索请尝试: 精确搜索
  • 数据库发展史2--数据仓库2022-09-16 11:01:55

    ​ 回顾数据仓库的发展历程,大致可以将其分为几个阶段:萌芽探索到全企业集成时代、企业数据集成时代、混乱时代--"数据仓库之父"间的论战、理论模型确认时代以及数据仓库产品百家争鸣时代。 数据仓库理论发展历程 上世纪70年代,IBM的E.F.Codd等人提出关系型数据库后,MIT的研究员提出单

  • 智能湖仓架构实践:利用 Amazon Redshift 的流式摄取构建实时数仓2022-09-15 09:35:03

    Amazon Redshift 是一种快速、可扩展、安全且完全托管的云数据仓库,可以帮助用户通过标准 SQL 语言简单、经济地分析各类数据。相比其他任何云数据仓库,Amazon Redshift 可实现高达三倍的性能价格比。数万家客户正在借助 Amazon Redshift 每天处理 EB 级别的数据,借此为高性能商业智

  • 数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向2022-09-12 22:00:23

    @目录概述Spark on HiveHive on Spark概述编译Spark源码配置调优思路编程方向分组聚合优化join优化数据倾斜任务并行度小文件合并CBO谓词下推矢量化查询Yarn配置推荐Spark配置推荐Executor CPU核数配置Executor CPU内存配置Executor 个数配置Driver配置整体配置 概述 前面的文章都

  • CloudCanal x StarRocks 在医疗大健康实时数仓领域的落地与实践2022-08-30 16:01:11

    - # 简述 本案例为国内某大健康领域头部公司真实案例(因用户保密要求,暂不透露用户相关信息)。希望文章内容对各位读者使用 CloudCanal 构建实时数仓带来一些帮助。   # 业务背景 大健康背景下,用户对报表和数据大屏的实时性能要求越来越高。以核酸检测为例,检测结果需要实时统计

  • 详解 OpenDAL |Data Infra 研究社第三期2022-08-29 15:01:25

    你是否对 OpenDAL 的设计和使用还有不解,急需一个系统的解释去深入了解呢?对于 OpenDAL 在 Databend 中的应用是否了解?本次直播我们会携手旋涡老师一起为大家答疑解惑,学习并掌握 OpenDAL 的使用,了解 Databend 底层如何与存储交互,感兴趣的朋友们不要错过,赶紧扫描下方二维码或点

  • Flink数仓项目常见问题总结2022-08-28 11:31:17

    Flink数仓项目常见问题总结   一、开发中的常见bug   1、OutputTag的对象新建问题缺少花括号       Exception in thread "main" org.apache.flink.api.common.functions.InvalidTypesException: Could not determine TypeInformation for the OutputTag type. The most comm

  • 技术专家说 | 如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效?2022-08-17 20:01:53

    【点击了解更多大数据知识】 市场的变幻,政策的完善,技术的革新……种种因素让我们面对太多的挑战,这仍需我们不断探索、克服。 今年,网易数帆将持续推出新栏目「金融专家说」「技术专家说」「产品专家说」等,聚集数帆及合作伙伴的数字化转型专家天团,聚焦大数据、云原生、人工智能等科

  • Pandas+ SLS SQL:融合灵活性和高性能的数据透视2022-08-17 14:02:05

    简介: Pandas是一个十分强大的python数据分析工具,也是各种数据建模的标准工具。Pandas擅长处理数字型数据和时间序列数据。Pandas的第一大优势在于,封装了一些复杂的代码实现过程,只需要调用接口就行了,避免了编写大量的代码。Pandas的第二大优势在于灵活性,可以实现自动化批量化处理

  • 1. 电商大数据实时数仓项目实战(Photo)2022-08-15 00:30:20

    1. 电商大数据实时数仓项目实战(Photo) 1.1 框架版本选型 1.2 服务器选型 1.3 集群规模 1.4 人员配置参考 1.5 项目架构 1.6 实时数仓分层-ODS 1.7 实时数仓分层-DWD 1.8 实时数仓分层-DWS 1.9 实时数仓分层-ADS 2.1 数据仓库建模(绝对重点) 2.2 电商业务流程 2

  • 1. Flink实时数仓2022-08-11 21:01:34

    1. Flink实时数仓 1.1 离线数仓 1.2 离线数仓迁移实时数仓 1.3 实时数仓 1.4 实时ETL 1.5 实时指标统计 1.6 实时标签导入 1.7 端到端的实时处理 1.8 端到端的血缘关系 1.9 离线实时一体化

  • 数仓工程师面试知识点汇总2022-08-08 21:33:55

    1.知识体系 2.HIVE相关 四种排序的区别 提交一个hive任务后的后台执行流程(sql转化为mr的过程) 数据倾斜的成因及优化方法 概念模型、逻辑模型、物理模型是什么   3.基础概念相关 数仓概念、作用 数仓分层 数据仓库和数据库的区别 数仓模型设计思路(范式建模和维度建模,星座/星型)  

  • 阿里云云原生一体化数仓 — 湖仓一体新能力解读2022-07-28 18:02:11

    简介: 本文主要介绍如何通过湖仓一体,打通 MaxCompute 与 Hadoop、DLF/OSS 数据湖,以及 Hologres、MySQL 等数据平台,并通过 DataWorks 做统一数据开发和治理。 分享人:阿里云智能 产品专家 孟硕   没来得及看直播的同学,可以观看直播回放。直播回放:https://developer.aliyun

  • 数仓建模2022-07-14 19:34:42

    第一数据仓库构建方式 数据仓库构建的方式有两种方式,一种是自上而下的;另一种是自下而上。   Bill Inmon先生推崇的 自上而下的方式,自上而下的方式构建数据仓库表面,要建立数据仓库,并不需要考虑数据仓库支持那些应用、报表、指标等,而是要从整个企业的业务入手,分析其的业务架构、业

  • 一键同步mysql到数仓(airflow调度)2022-07-09 23:35:52

    经常会接到产品的需求:同步***表到hive,做分析。(做多了感觉很烦,就写一个工具) 一:背景、功能、流程介绍 1.背景:     1.数仓使用hive存储,datax导数据、airflow调度    2.虽然数据产品同学对datax进行了封装,可以点点点完成mysql表的同步,但是过程太复杂了        还需

  • 02数仓开发-04数仓多维模型构建2022-07-06 12:01:13

    目录一.背景二.维度爆炸&下游易用三.如何优化1.grouping sets字句2.lateral view + 自定义维度list3.通过配置文件,维护维度list 一.背景 数仓建设中经常会有多个维度灵活组合看数的需求,这种多维分析的场景一般有两种处理方式 即时查询 适合计算引擎很强,查询灵活,并发量不大的

  • 最强最全的数仓建设规范指南,肝完后卷哭他们!2022-06-29 18:02:35

    本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!   一、数据模型架构原则    1、数仓分层原则   优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路

  • 阿里云云原生一体化数仓 — 离线实时一体化新能力解读2022-06-28 18:01:08

    简介: 介绍MaxCompute+Hologres离线和实时数仓一体化优于之前有离线、有在线、有很多不同的引擎的实现方案,通过用实时的引擎做预处理,实现离线实时数据入仓后做更加实时的服务化BI分析实践。 没来得及看直播的同学,可以看下直播回放。直播回放:https://developer.aliyun.com

  • 数仓的字符截取三胞胎:substrb、substr、substring2022-06-27 17:04:16

    摘要:下面就来给大家介绍这三个函数在字符截取时的一些用法与区别。 本文分享自华为云社区《GaussDB(DWS)中的字符截取三胞胎》,作者:我站在北方的天空下 。 在GaussDB(DWS)中关于字符截取功能的支持有个函数三胞胎,它们分别是substrb()、substr()、substring(),很多人大概只知道它们可

  • 解析数仓lazyagg查询重写优化2022-06-25 14:31:45

    摘要:本文对Lazy Agg查询重写优化和GaussDB(DWS)提供的Lazy Agg重写规则进行介绍。 本文分享自华为云社区《GaussDB(DWS) lazyagg查询重写优化解析【这次高斯不是数学家】》,作者: OreoreO 。 聚集操作将查询结果按某一列或多列的值分组,值相等的为一组。聚集操作是一种常见的操作并在

  • 数仓-拉链表2022-06-23 10:35:42

    一,什么是拉链表 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。 二,用在什么地方 在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 数据量比较大; 表中的部分字段会被update,如用户的

  • Hadoop 和 MPP 作为数仓组件的区别2022-06-22 13:35:23

    1,原理对比 MPP方案中的数据通常在节点之间拆分(分片),每个节点仅处理其本地数据。而且,每家都有专门为 MPP 解决方案开发的复杂而成熟的 SQL 优化器。它们都可以在内置语言和围绕这些解决方案的工具集方面进行扩展,支持地理空间分析、数据挖掘的全文搜索。在任务执行过程中,单一的 Execu

  • 离线数仓 建模、表的类型分类2022-06-15 09:32:51

    关系建模:遵循三范式 1.基本字段不可再分割 2.其他字段对主键完全依赖 3.其他字段间不存在传递依赖关系 维度建模:星型模型 雪花模型 星座模型   实体表 维度表(码表) 事实表 事实表的分类:事务型事实表 周期型快照事实表 累积型快照事实表 按数据同步分类: 全量表 增量表 同步新增

  • 离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾2022-06-10 14:00:08

    原文链接:离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾 视频回顾:点击这里 课件获取:点击这里 一、离线数仓建设背景 离线数据是相对实时数据而言的数据产出,不同于实时数据,离线数据一般是T+1天处理,也就是说昨天产生的数据至少要今天才能看到计算结果。离线数据一般应用

  • 数仓血缘关系数据的存储与读写2022-05-26 11:32:39

    本文首发于 Nebula Graph Community 公众号 一、选择 Nebula 的原因 性能优越 查询速度极快 架构分离,易扩展(目前的机器配置低,后续可能扩展) 高可用(由于是分布式,所以从使用到现在没有出现过宕机情况) 上手容易 介绍全(熟悉架构和性能) 部署快(经过手册的洗礼,快速部署简单的集群) 使

  • 数仓选型必列入考虑的OLAP列式数据库ClickHouse(中)2022-05-22 03:01:01

    实战 案例使用 背景 ELK作为老一代日志分析技术栈非常成熟,可以说是最为流行的大数据日志和搜索解决方案;主要设计组件及架构如下: 而新一代日志监控选型如ClickHouse、StarRocks特别是近年来对ELK地位发起较大的挑战,不乏有许多的大公司如携程,快手已开始把自己的日志解决方案从 ES

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有