ICode9

精准搜索请尝试: 精确搜索
  • 如何在Airflow中设置DAG之间的依赖关系?2019-09-28 11:10:11

    我正在使用Airflow来安排批处理作业.我有一个每晚运行的DAG(A)和每月运行一次的另一个DAG(B). B取决于A已成功完成.但是B需要很长时间才能运行,因此我希望将其保存在单独的DAG中,以便更好地进行SLA报告. 如何在同一天成功运行DAG A,使DAG B运行?解决方法:您可以使用名为ExternalTask

  • 如何在MySQL中将结果表转换为JSON数组2019-09-26 20:15:29

    我想在MySQL中将结果表转换为JSON数组,最好只使用普通的MySQL命令.例如查询 SELECT name, phone FROM person; | name | phone | | Jack | 12345 | | John | 23455 | 预期的JSON输出将是 [ { "name": "Jack", "phone": 12345 }, { "name": "

  • OurwayBI基于ETL(新版本)功能制作报表2·开课预告2019-09-26 10:03:44

            在BI可视化分析中,如何确保每天看到的数据都是最新的?如何兼顾高效抽取数据,又不过多占用服务器资源?关于这些问题,在本期课程中都可找到答案。           继上期课程之后,奥威BI小课堂将于本周四(9.26)继续讲解演示OurwayBI基于ETL(新版本)功能制作可视化分析报表。(错

  • python – 将MySQL结果集转换为NumPy数组的最有效方法是什么?2019-09-26 02:59:04

    我正在使用MySQLdb和Python.我有一些基本的查询,例如: c=db.cursor() c.execute("SELECT id, rating from video") results = c.fetchall() 我需要“结果”作为NumPy数组,而且我希望我的内存消耗更经济.似乎逐行复制数据会非常低效(需要双倍的内存).有没有更好的方法将MySQLdb查询

  • Java Opensource ETL框架具有自动调度功能2019-09-02 14:04:19

    我正在解析文件数据并加载到数据库,这个解析应该每5分钟重复一次.是否有任何支持自动作业调度的Java ETL框架. 我接触过Talend.但是没有自动作业调度.我的目的是安排每隔5分钟解析jar文件.我不能依赖于crontab或Windows调度程序. 任何人都可以建议我有任何具有自动作业调度功能的开

  • python – 选择将大型CSV文件加载到Oracle表的技术2019-09-01 16:55:48

    我遇到了一个问题,我不确定哪个是最合适的技术来实现它.如果你们可以根据你的经验建议我,那将是有责任的. 我想从10-15个CSV文件加载数据,每个文件都是相当大的5-10 GB.通过加载数据,我的意思是将CSV文件转换为XML,然后使用此XML在Oracle中填充大约6-7个停顿表.需要填充数据,以便XM

  • ETL必知必会----正则2019-08-30 19:41:23

    ETL简介 ETL(Extraction-Transformation-Loading)中文意思就是数据清洗(数据抽取、转换和加载),通俗的说法就是从数据源抽取数据出来,进行清洗加工转换,然后加载到定义好的数据仓库模型中去。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依

  • 将数据从Redshift复制到MySQL / PSQL2019-08-29 12:24:07

    我试着寻找它但却找不到…… 将数据从Amazon Redshift复制到MySQL / PSQL数据库的最佳方法是什么? 我所知道的唯一解决方案是将数据从Redshift复制到我的机器,然后将其移动到MySQL / PSQL,但这当然是I / O密集型且不可扩展. 任何人都可以建议更好的东西(可能是通过S3的东西)?解决方法

  • SpringCloud DataFlow — 3. 暴露properties2019-08-26 15:08:18

    SpringCloud DataFlow — 0. 本地部署部署 SpringCloud DataFlow — 1. 自定义Processor SpringCloud DataFlow — 2. 自定义Sink SpringCloud DataFlow — 3. 暴露properties SpringCloud DataFlow — 4. Prometheus + Grafana 监控 SpringCloud DataFlow — 5. 多分支负

  • ETL子系统2019-08-26 11:00:48

      最近在看《Pentaho Kettle 解决方案》,看到 ETL子系统,发现信息量比较大,用简短的语句做一下笔记。   ETL子系统有34种子系统,被分成4个部分:抽取、清洗和更正、发布、管理。 一、抽取  子系统1:数据剖析系统   指从不同源系统中搜集数据的统计信息或其他相关信息的过程,目的是

  • 大数据模块开发----ETL2019-08-26 10:01:12

    ETL工作的实质就是从各个数据源提取数据,对数据进行转换,并最终加载填充数据到数据仓库维度建模后的表中。只有当这些维度/事实表被填充好,ETL工作才算完成。 本项目的数据分析过程在hadoop集群上实现,主要应用hive数据仓库工具,因此,采集并经过预处理后的数据,需要加载到hive数据仓库中,以

  • Java Spring Batch与Apache Spark基准测试中的ETL2019-08-23 11:19:43

    我已经使用Apache Spark Scala超过5年了(学术和专业经验).我总是发现Spark / Scala是用于构建任何类型的批处理或流式ETL / ELT应用程序的强大组合之一. 但最近,我的客户决定在我们的两个主要管道中使用Java Spring Batch: >从MongoDB中读取 – >业务逻辑 – >写入JSON文件(~2GB | 6

  • 「数据ETL」从数据民工到数据白领蜕变之旅(三)-除了Excel催化剂之外PowerQuery新物种同样值得期待2019-08-10 14:57:13

    在自助式BI时代以前,Excel级别的数据ETL工作,非常低效,动不动就要启用VBA来完成一些常见的需求,自带的原生功能,未能满足大量的繁琐数据ETL刚需功能。 在Excel2010后,PowerQuery以插件的形式横空出现,并最终在Excel2016中得以深度内置,是一款非常难得的轻量化数据ETL工具。 微软官方插件

  • 「数据ETL」从数据民工到数据白领蜕变之旅(四)-有了PowerQuery还需要SSIS吗?2019-08-10 14:56:24

    在真正的企业级BI项目中,使用PowerBIDeskTop那一套数据ETL是不可行的,需要使用专业的ETL工具完成数据仓库的搭建,再进行数据建模的工作。 鉴于笔者所能触达的读者群体,多数为业务背景的数据分析工作者,本篇给大家带来简单的入门实操演示,让大家减少对专业IT型工具的恐惧心理。 所有工具

  • 如何才能让数仓构建成本降低80%,维护成本降低70%?2019-08-05 12:54:04

           构建数据仓库的核心是建模,在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线。从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,Load)。       通常数据抽取工作分抽

  • 开发PHP数据导入框架的最佳实践是什么?2019-07-30 20:30:35

    在我们作为气象公司的Web开发人员的工作期间,我们一遍又一遍地面对同样的任务:从某个地方获取一些文件(FTP / Web /目录/邮件)并将包含的数据导入数据库. 当然,文件格式永远不会相同,数据库总是以不同的方式设计,必须处理无数的特殊情况等等. 所以现在我正在为这种工作计划一个导入

  • 转:ETL讲解(很详细!!!)2019-07-27 13:52:00

    ETL讲解(很详细!!!)   ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关

  • 20190722 对于大数据环境--意义2019-07-22 16:02:13

    其实,要搭建一个Hadoop 生态圈并不难,在我理解难在根据实际需求去做出配置调整 传统的数据仓库,存在的意义就是为了更好的规范数据关系,为数据分析、数据挖掘提供服务 那么搭建一个空的Hadoop生态圈没有太多的意义,因为没有数据就没有价值,我不太喜欢外包的原因就是因为外包公司没有办法

  • Hadoop小结们2019-07-15 18:00:38

    数仓 数据仓库是一个面向主题的、集成的、随着时间变化的、非易失的数据集合,用于支持管理者的决策过程。 数据仓库中的力度是指数据的细节或汇总程度,细节程度越高,粒度几倍越低。 数据仓库的数据来自各个业务应用系统。 很多因素导致直接访问业务系统无法进行全局数据分析工作,这也

  • ETL-kettle 核心执行逻辑2019-07-14 15:54:40

    一、大数据下的ETL工具是否还使用Kettle       kettle 作为通用的ETL工具,非常成熟,应用也很广泛,这里主要讲一下 目前我们如何使用kettle的?      在进行大数据处理时,ETL也是大数据处理的主要场景之一。 针对大数据下的ETL, 在大数据研究之初,曾经花费很大精力去寻找大数据下比

  • oracle sql-server2019-07-14 15:41:53

    ETL工具-Kettle Spoon教程 https://blog.csdn.net/liaomin416100569/article/details/82798879 ORACLE与SQLSERVER数据转换 https://www.cnblogs.com/jxgzCHforever/p/8650056.html    

  • java – Oracle – DB似乎打破了JDBC批量插入2019-07-10 17:10:20

    我们的一个ETL应用程序遇到了一个奇怪的问题.实际上,该过程打开游标以从一个DB中提取数据,执行一些转换,然后使用批量插入插入另一个DB. 对于ETL中的所有表,我们的提交间隔设置为1000行.因此,在读取每行1k行并执行转换后,我们对目标数据库执行单个批量插入(使用Java,Spring Batch,O

  • kettle 4.1 与 5.4 二次开发的日志记录方式2019-07-09 10:08:32

    kettle 4.1 与 5.4 二次开发的日志记录方式 log4j版本:log4j-1.2.17.jar kettle 4.1 日志记录 问题描述: 因 kettle-engine.jar 包中集成 log4j.xml文件,log4j默认加载xml配置文件; 此log4j.xml文件仅提供控制台输出配置,默认未提供文件输出配置; 如果在classpath中添加log4j.prop

  • c# – 转换JSON日期时间2017-03-19T23:54:46至2017年3月19日11:54:46 PM2019-07-05 17:15:01

    如何在SSIS的脚本C#脚本中执行此操作.当前日期时间是来自JSON列的字符串.我正在尝试执行此操作 DateTime convertedDate = DateTime.Parse(dateString); 但错误说CreationTime不在当前上下文中.我在所有部分中尝试过 public override void Input0_ProcessInputRow(Input0Buffer

  • 六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)2019-07-04 12:39:58

    六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate) 比较维度\产品DataPipelinekettleOracle GoldengateinformaticatalendDataX 设计及架构 适用场景 主要用于各类数据融合、数据交换场景,专为超大数据量、高度复杂的数据链路设计的灵活

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有