ETL

如何在Airflow中设置DAG之间的依赖关系？2019-09-28 11:10:11

我正在使用Airflow来安排批处理作业.我有一个每晚运行的DAG(A)和每月运行一次的另一个DAG(B). B取决于A已成功完成.但是B需要很长时间才能运行,因此我希望将其保存在单独的DAG中,以便更好地进行SLA报告. 如何在同一天成功运行DAG A,使DAG B运行？解决方法:您可以使用名为ExternalTask
如何在MySQL中将结果表转换为JSON数组2019-09-26 20:15:29

我想在MySQL中将结果表转换为JSON数组,最好只使用普通的MySQL命令.例如查询 SELECT name, phone FROM person; | name | phone | | Jack | 12345 | | John | 23455 | 预期的JSON输出将是 [ { "name": "Jack", "phone": 12345 }, { "name": "
OurwayBI基于ETL（新版本）功能制作报表2·开课预告2019-09-26 10:03:44

在BI可视化分析中，如何确保每天看到的数据都是最新的？如何兼顾高效抽取数据，又不过多占用服务器资源？关于这些问题，在本期课程中都可找到答案。继上期课程之后，奥威BI小课堂将于本周四（9.26）继续讲解演示OurwayBI基于ETL（新版本）功能制作可视化分析报表。（错
python – 将MySQL结果集转换为NumPy数组的最有效方法是什么？2019-09-26 02:59:04

我正在使用MySQLdb和Python.我有一些基本的查询,例如： c=db.cursor() c.execute("SELECT id, rating from video") results = c.fetchall() 我需要“结果”作为NumPy数组,而且我希望我的内存消耗更经济.似乎逐行复制数据会非常低效(需要双倍的内存).有没有更好的方法将MySQLdb查询
Java Opensource ETL框架具有自动调度功能2019-09-02 14:04:19

我正在解析文件数据并加载到数据库,这个解析应该每5分钟重复一次.是否有任何支持自动作业调度的Java ETL框架. 我接触过Talend.但是没有自动作业调度.我的目的是安排每隔5分钟解析jar文件.我不能依赖于crontab或Windows调度程序. 任何人都可以建议我有任何具有自动作业调度功能的开
python – 选择将大型CSV文件加载到Oracle表的技术2019-09-01 16:55:48

我遇到了一个问题,我不确定哪个是最合适的技术来实现它.如果你们可以根据你的经验建议我,那将是有责任的. 我想从10-15个CSV文件加载数据,每个文件都是相当大的5-10 GB.通过加载数据,我的意思是将CSV文件转换为XML,然后使用此XML在Oracle中填充大约6-7个停顿表.需要填充数据,以便XM
ETL必知必会----正则2019-08-30 19:41:23

ETL简介 ETL(Extraction-Transformation-Loading)中文意思就是数据清洗(数据抽取、转换和加载),通俗的说法就是从数据源抽取数据出来，进行清洗加工转换，然后加载到定义好的数据仓库模型中去。目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依
将数据从Redshift复制到MySQL / PSQL2019-08-29 12:24:07

我试着寻找它但却找不到…… 将数据从Amazon Redshift复制到MySQL / PSQL数据库的最佳方法是什么？我所知道的唯一解决方案是将数据从Redshift复制到我的机器,然后将其移动到MySQL / PSQL,但这当然是I / O密集型且不可扩展. 任何人都可以建议更好的东西(可能是通过S3的东西)？解决方法
SpringCloud DataFlow — 3. 暴露properties2019-08-26 15:08:18

SpringCloud DataFlow — 0. 本地部署部署 SpringCloud DataFlow — 1. 自定义Processor SpringCloud DataFlow — 2. 自定义Sink SpringCloud DataFlow — 3. 暴露properties SpringCloud DataFlow — 4. Prometheus + Grafana 监控 SpringCloud DataFlow — 5. 多分支负
ETL子系统2019-08-26 11:00:48

　　最近在看《Pentaho Kettle 解决方案》，看到 ETL子系统，发现信息量比较大，用简短的语句做一下笔记。　　ETL子系统有34种子系统，被分成4个部分：抽取、清洗和更正、发布、管理。一、抽取　子系统1：数据剖析系统　　指从不同源系统中搜集数据的统计信息或其他相关信息的过程，目的是
大数据模块开发----ETL2019-08-26 10:01:12

ETL工作的实质就是从各个数据源提取数据，对数据进行转换，并最终加载填充数据到数据仓库维度建模后的表中。只有当这些维度/事实表被填充好，ETL工作才算完成。本项目的数据分析过程在hadoop集群上实现，主要应用hive数据仓库工具，因此，采集并经过预处理后的数据，需要加载到hive数据仓库中，以
Java Spring Batch与Apache Spark基准测试中的ETL2019-08-23 11:19:43

我已经使用Apache Spark Scala超过5年了(学术和专业经验).我总是发现Spark / Scala是用于构建任何类型的批处理或流式ETL / ELT应用程序的强大组合之一. 但最近,我的客户决定在我们的两个主要管道中使用Java Spring Batch： >从MongoDB中读取 – >业务逻辑 – >写入JSON文件(~2GB | 6
「数据ETL」从数据民工到数据白领蜕变之旅（三）-除了Excel催化剂之外PowerQuery新物种同样值得期待2019-08-10 14:57:13

在自助式BI时代以前，Excel级别的数据ETL工作，非常低效，动不动就要启用VBA来完成一些常见的需求，自带的原生功能，未能满足大量的繁琐数据ETL刚需功能。在Excel2010后，PowerQuery以插件的形式横空出现，并最终在Excel2016中得以深度内置，是一款非常难得的轻量化数据ETL工具。微软官方插件
「数据ETL」从数据民工到数据白领蜕变之旅（四）-有了PowerQuery还需要SSIS吗？2019-08-10 14:56:24

在真正的企业级BI项目中，使用PowerBIDeskTop那一套数据ETL是不可行的，需要使用专业的ETL工具完成数据仓库的搭建，再进行数据建模的工作。鉴于笔者所能触达的读者群体，多数为业务背景的数据分析工作者，本篇给大家带来简单的入门实操演示，让大家减少对专业IT型工具的恐惧心理。所有工具
如何才能让数仓构建成本降低80%，维护成本降低70%？2019-08-05 12:54:04

构建数据仓库的核心是建模，在数据仓库的构建中，ETL贯穿于项目始终，它是整个数据仓库的生命线。从数据源中抽取数据，然后对这些数据进行转化，最终加载到目标数据库或者数据仓库中去，这也就是我们通常所说的 ETL 过程(Extract,Transform,Load)。通常数据抽取工作分抽
开发PHP数据导入框架的最佳实践是什么？2019-07-30 20:30:35

在我们作为气象公司的Web开发人员的工作期间,我们一遍又一遍地面对同样的任务：从某个地方获取一些文件(FTP / Web /目录/邮件)并将包含的数据导入数据库. 当然,文件格式永远不会相同,数据库总是以不同的方式设计,必须处理无数的特殊情况等等. 所以现在我正在为这种工作计划一个导入
转:ETL讲解（很详细！！！）2019-07-27 13:52:00

ETL讲解（很详细！！！） ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关
20190722 对于大数据环境--意义2019-07-22 16:02:13

其实，要搭建一个Hadoop 生态圈并不难，在我理解难在根据实际需求去做出配置调整传统的数据仓库，存在的意义就是为了更好的规范数据关系，为数据分析、数据挖掘提供服务那么搭建一个空的Hadoop生态圈没有太多的意义，因为没有数据就没有价值，我不太喜欢外包的原因就是因为外包公司没有办法
Hadoop小结们2019-07-15 18:00:38

数仓数据仓库是一个面向主题的、集成的、随着时间变化的、非易失的数据集合，用于支持管理者的决策过程。数据仓库中的力度是指数据的细节或汇总程度，细节程度越高，粒度几倍越低。数据仓库的数据来自各个业务应用系统。很多因素导致直接访问业务系统无法进行全局数据分析工作，这也
ETL-kettle 核心执行逻辑2019-07-14 15:54:40

一、大数据下的ETL工具是否还使用Kettle kettle 作为通用的ETL工具,非常成熟，应用也很广泛，这里主要讲一下目前我们如何使用kettle的？在进行大数据处理时，ETL也是大数据处理的主要场景之一。针对大数据下的ETL, 在大数据研究之初，曾经花费很大精力去寻找大数据下比
oracle sql-server2019-07-14 15:41:53

ETL工具-Kettle Spoon教程 https://blog.csdn.net/liaomin416100569/article/details/82798879 ORACLE与SQLSERVER数据转换 https://www.cnblogs.com/jxgzCHforever/p/8650056.html
java – Oracle – DB似乎打破了JDBC批量插入2019-07-10 17:10:20

我们的一个ETL应用程序遇到了一个奇怪的问题.实际上,该过程打开游标以从一个DB中提取数据,执行一些转换,然后使用批量插入插入另一个DB. 对于ETL中的所有表,我们的提交间隔设置为1000行.因此,在读取每行1k行并执行转换后,我们对目标数据库执行单个批量插入(使用Java,Spring Batch,O
kettle 4.1 与 5.4 二次开发的日志记录方式2019-07-09 10:08:32

kettle 4.1 与 5.4 二次开发的日志记录方式 log4j版本：log4j-1.2.17.jar kettle 4.1 日志记录问题描述：因 kettle-engine.jar 包中集成 log4j.xml文件，log4j默认加载xml配置文件；此log4j.xml文件仅提供控制台输出配置，默认未提供文件输出配置；如果在classpath中添加log4j.prop
c# – 转换JSON日期时间2017-03-19T23：54：46至2017年3月19日11:54:46 PM2019-07-05 17:15:01

如何在SSIS的脚本C#脚本中执行此操作.当前日期时间是来自JSON列的字符串.我正在尝试执行此操作 DateTime convertedDate = DateTime.Parse(dateString); 但错误说CreationTime不在当前上下文中.我在所有部分中尝试过 public override void Input0_ProcessInputRow(Input0Buffer
六种主流ETL 工具的比较(DataPipeline，Kettle，Talend，Informatica，Datax ，Oracle Goldengate)2019-07-04 12:39:58

六种主流ETL 工具的比较(DataPipeline，Kettle，Talend，Informatica，Datax ，Oracle Goldengate) 比较维度\产品DataPipelinekettleOracle GoldengateinformaticatalendDataX 设计及架构适用场景主要用于各类数据融合、数据交换场景，专为超大数据量、高度复杂的数据链路设计的灵活

首页 < 4 5 6 7 > 尾页

ICode9

如何在Airflow中设置DAG之间的依赖关系？2019-09-28 11:10:11

如何在MySQL中将结果表转换为JSON数组2019-09-26 20:15:29

OurwayBI基于ETL（新版本）功能制作报表2·开课预告2019-09-26 10:03:44

python – 将MySQL结果集转换为NumPy数组的最有效方法是什么？2019-09-26 02:59:04

Java Opensource ETL框架具有自动调度功能2019-09-02 14:04:19

python – 选择将大型CSV文件加载到Oracle表的技术2019-09-01 16:55:48

ETL必知必会----正则2019-08-30 19:41:23

将数据从Redshift复制到MySQL / PSQL2019-08-29 12:24:07

SpringCloud DataFlow — 3. 暴露properties2019-08-26 15:08:18

ETL子系统2019-08-26 11:00:48

大数据模块开发----ETL2019-08-26 10:01:12

Java Spring Batch与Apache Spark基准测试中的ETL2019-08-23 11:19:43

「数据ETL」从数据民工到数据白领蜕变之旅（三）-除了Excel催化剂之外PowerQuery新物种同样值得期待2019-08-10 14:57:13

「数据ETL」从数据民工到数据白领蜕变之旅（四）-有了PowerQuery还需要SSIS吗？2019-08-10 14:56:24

如何才能让数仓构建成本降低80%，维护成本降低70%？2019-08-05 12:54:04

开发PHP数据导入框架的最佳实践是什么？2019-07-30 20:30:35

转:ETL讲解（很详细！！！）2019-07-27 13:52:00

20190722 对于大数据环境--意义2019-07-22 16:02:13

Hadoop小结们2019-07-15 18:00:38

ETL-kettle 核心执行逻辑2019-07-14 15:54:40

oracle sql-server2019-07-14 15:41:53

java – Oracle – DB似乎打破了JDBC批量插入2019-07-10 17:10:20

kettle 4.1 与 5.4 二次开发的日志记录方式2019-07-09 10:08:32

c# – 转换JSON日期时间2017-03-19T23：54：46至2017年3月19日11:54:46 PM2019-07-05 17:15:01

六种 主流ETL 工具的比较(DataPipeline，Kettle，Talend，Informatica，Datax ，Oracle Goldengate)2019-07-04 12:39:58

六种主流ETL 工具的比较(DataPipeline，Kettle，Talend，Informatica，Datax ，Oracle Goldengate)2019-07-04 12:39:58