HIve

Hive3配置tez引擎2022-08-14 14:30:09

1. 下载下载地址：https://dlcdn.apache.org/tez/，选择带-bin的，此处下载apache-tez-0.10.1-bin.tar.gz 2. 解压 hive在哪个节点上，就解压到哪个节点 tar -zxvf apache-tez-0.10.1-bin.tar.gz -C /opt/ # 重命名（可选） mv /opt/apache-tez-0.10.1-bin/ /opt/tez-0.10.1/ 3. 上传tez包
Hive Explain 详解2022-08-14 11:30:20

导读前文《一文读懂 SQL Server 执行计划》中介绍过关系型数据库 SQL Server 的执行计划执行计划在数据开发过程中的重要性，以及如何阅读执行计划，根据执行计划分析 SQL 语句的执行效率问题并提出优化方案。Hive 是基于 Hadoop，实现了通过 SQL 操作 MapRedue 任务，简化了大数据编
6. 从ods（贴源层）到 dwd(数据明细层)的两种处理方式（spark）-dsl2022-08-08 01:01:59

6. 从ods（贴源层）到 dwd(数据明细层)的两种处理方式（spark） 6.1 使用spark dsl 方式处理 6.1.1 注意事项 # 开启hive元数据支持，开启之后在spark中可以直接读取hive中的表，但是开启之后就不能再本地云心的了 .enableHiveSupport() # 这下脚本都是作用在dwd层，所以必须在dwd的用户下执行，
Hive SQL语句的正确执行顺序2022-08-07 01:03:11

今天我们通过 explain 来验证下 sql 的执行顺序。在验证之前，先说结论，Hive 中 sql 语句的执行顺序如下： from .. where .. join .. on .. select .. group by .. select .. having .. distinct .. order by .. limit .. union/union all 可以看到 group by 是在两个 select 之间，我
MySQL表结构批量自动生成HIVE建表语句2022-08-07 00:30:19

MySQL表结构批量自动生成HIVE建表语句需求描述数仓建设过程中，在所难免的需要将大量业务数据导入值hive中，当业务比较复杂导致业务相关表过多时，建表语句的整理和维护工作增大，手动写hive DDL容易出错且耗时，需要通过一些方法减少工作量。该方式仅适用于MySQL，其他方法可以类似处理
hive的insert命令2022-08-04 14:35:38

insert overwrite table test_insert select * from test_table;insert into table test_insert select * from test_table; 注意：overwrite重写，into追加。插入自定义数据： insert into table tablename1 values ('R3700','aaaa');
自定义udtf函数（一进多出）2022-08-04 13:33:36

案例要求 java编写 package udtf; import org.apache.hadoop.hive.ql.exec.UDFArgumentException; import org.apache.hadoop.hive.ql.metadata.HiveException; import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF; import org.apache.hadoop.hive.serde2.objectinspect
hive创建表报错FAILED: SemanticException No valid privileges2022-08-03 11:31:54

操作： create external table hive_data( id int, name string )row format delimited fields terminated by ',' stored as textfile location '/test/hivedata'; 报错信息： Error: Error while compiling statement: FAILED: SemanticException No valid
Hive了解2022-08-02 14:31:44

转自：https://aws.amazon.com/cn/big-data/what-is-hive/ https://www.jianshu.com/p/e9ec6e14fe52，https://blog.csdn.net/qq_26442553/article/details/80300714 1.简介 Facebook为了解决海量日志数据的分析而开发了Hive，Hive是一种用类SQL语句来协助读写、管理存储在分布式存储系
hive建表分隔符2022-07-30 16:04:01

row format delimited fields terminated by 设置字段与字段之间的分隔符（字段与字段之间就是属性与属性之间，不是行与行之间，行的末尾） collection items terminated by 设置一个复杂类型（array,struct)字段的各个item之间的分隔符 map keys terminated by 设置一个复杂类型(Map)
HIVE SQL COUNT(DISTINCT * 按条件去重2022-07-29 19:04:29

COUNT(DISTINCT CASE WHEN ******* THEN cid END), COUNT(DISTINCT CASE WHEN ******* THEN cid END), 参考：统计符合条件的去重过的数量 - - count distinct if case - 伸展代码舒适区 - 博客园 (cnblogs.com)
hive配置的学习2022-07-29 19:04:09

[root@node1 conf]# mv hive-env.sh.template hive-env.sh [root@node1 conf]# vi hive-env.sh export HIVE_CONF_DIR=/opt/app/hive-2.3.8/conf export HADOOP_HOME=/opt/app/hadoop-2.8.5 第一次启动先初始化元数据到derby数据库中 [root@node1 hive-2.3.8]# schematool -dbTyp
HDFS配置HA下spark-sql写入hive报错Wrong FS2022-07-28 17:02:20

背景: 　　CDH集群的HDFS HA已配置完毕，Hive也相应进行了Update Hive Metastore NameNode，Hive的业务sql脚本都正常运行。　　在使用spark-sql 写入hive时报错： Caused by: java.lang.IllegalArgumentException: Wrong FS: hdfs://nameservice1:8020/dw/ods/ods_node_data_i_temp/.
Hive分布式数据仓库（大数据）2022-07-28 09:02:39

数据仓库数据仓库和数据库的区别数据仓库的系统结构 Hive概述和体系结构 Hive简介 Hive应用场景 Hive体系结构华为Hive架构 Hive与传统数据仓库比较（1） Hive与传统数据仓库比较（2） Hive优点 Hive缺点 Hive数据存储模型 Hive分区和分桶 Hive基本操作 Hive数据基本操作（1） Hive数
HIVE_mark 误删表恢复2022-07-28 01:00:17

背景给业务洗数，误拉起一个sqoop抽数任务。反应时过来已经执行了drop并且执行成功 alter table XXX_TABLE drop if exits partition(ds='20220718')；处理过程 HIVE如果打开了回收站功能，删除的表会临时存放在回收站里面。明确了drop删除操作是会将数据临时挪到回收站了，去回收站查
043.hive-导出数据hive-csv2022-07-26 18:34:27

1. su hdfs cd ~ 2. hive -e " set hive.cli.print.header=true; USE saas; SELECT CONCAT_WS(',', cast( nvl(order_id ,0) as string) ,cast( nvl(total_amount ,0.00)
Hive split 截取字符串获取最后一部分2022-07-21 17:05:36

问题背景日常在处理一些字符串的时候，需要用到split函数，split的处理结果是array类型，然后在获取数组中对应的元素。我们在获取最后一部分字符串的时候使用split(string str, string pat)[-1] 的时候会报错，不能使用[-1]获取对应位置的元素，我找到了下面两种方案。使用size函数获
spark sql整合hive-重要2022-07-17 21:34:21

spark sql整合hive 在spark sql中使用hive的元数据 spark sql是使用spark进行计算的，hive使用MR进行计算的 1、在hive的hive-site.xml修改一行配置，增加了这一行配置之后，以后在使用hive之前都需要先启动元数据服务 cd /usr/local/soft/hive-1.2.1/conf/ <property> <name>hive.met
Spark Streaming实时写入Hive当日分区2022-07-17 17:13:09

背景由于需要查看原始数据，而原始数据实时产生，数据量较大，大约1万/分钟，写入MDB占用MDB的流量带宽，故考虑将原始数据写入Hive 逻辑 Spark Streaming作业中将消费的RDD整体处理为一个临时表，然后insert into到Hive表当日分区，即追加到当日分区现状写入少部分数据后就没有新数据
练习：使用shell脚本结合sqoop命令，把Hive数据库的某张表的分区数据导出到oracle数据库的某张表2022-07-17 14:01:43

hive的表：bigdata.emp_dongtai oracle的表：EMP_FROM_H #!/bin/sh #使用shell脚本结合sqoop命令，进行一个Hive分区表格的数据导出到oracle的操作 for i in `hive -e"show partitions bigdata.emp_dongtai"` #查看表的分区数据 do echo $i sqoop export --connect jdbc:oracle:thi
pyspark2022-07-17 13:04:46

1：PySpark类库和标准Spark框架的简单对比 2: 安装将/spark/python/pyspark 复制到 python 的安装包中或者 pip install pyspark (注意版本对应关系） 3：spark on hive 本质：将hive的执行引擎替换为spark 的执行引擎！　　配置：校验hive的是否正常运行
coin-hive.com 网页挖矿分析2022-07-16 21:04:55

现象：http://youssef-rabbaoui.de/ any run里的分析：https://app.any.run/tasks/223aa545-5ba5-48dc-8a24-c46fd4a59f9d/ 的确是看到dns请求了coin-hive.com 这个站点有网页挖矿，代码： var miner = new CoinHive.Anonymous('Bnt5BfEGPkhcJXWDSxQZNkZo346S1UCs', '$seite', {
Hive详解2022-07-15 10:04:41

1 Hive基本概念 Hive是一个构建在Hadoop上的数据仓库框架。最初，Hive是由Facebook开发，后来移交由Apache软件基金会开发，并作为一个Apache开源项目。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapRedu
开源交流丨批流一体数据集成工具ChunJun同步Hive事务表原理详解及实战分享2022-07-12 19:35:12

原文链接：批流一体数据集成工具ChunJun同步Hive事务表原理详解及实战分享课件获取：关注公众号__ “数栈研习社”，后台私信 “ChengYing”__ 获得直播课件视频回放：点击这里 ChengYing 开源项目地址：github 丨 gitee 喜欢我们的项目给我们点个__ STAR！STAR！！STAR！！！（重要的事情说三遍）__ 技
Hive comment中文乱码问题解决2022-07-12 10:36:13

1、登录到Hive元数据库中我这里是mysql，执行以下语句：（1）修改表字段注解和表注解我这里库名叫“hive”； use hive; alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character se

首页 < 1 2 3 4 5 6 7 8 > 尾页

ICode9

Hive3配置tez引擎2022-08-14 14:30:09

Hive Explain 详解2022-08-14 11:30:20

6. 从ods（贴源层）到 dwd(数据明细层)的两种处理方式（spark）-dsl2022-08-08 01:01:59

Hive SQL语句的正确执行顺序2022-08-07 01:03:11

MySQL表结构批量自动生成HIVE建表语句2022-08-07 00:30:19

hive的insert命令2022-08-04 14:35:38

自定义udtf函数（一进多出）2022-08-04 13:33:36

hive创建表报错FAILED: SemanticException No valid privileges2022-08-03 11:31:54

Hive了解2022-08-02 14:31:44

hive建表分隔符2022-07-30 16:04:01

HIVE SQL COUNT(DISTINCT * 按条件去重2022-07-29 19:04:29

hive配置的学习2022-07-29 19:04:09

HDFS配置HA下spark-sql写入hive报错Wrong FS2022-07-28 17:02:20

Hive分布式数据仓库（大数据）2022-07-28 09:02:39

HIVE_mark 误删表恢复2022-07-28 01:00:17

043.hive-导出数据hive-csv2022-07-26 18:34:27

Hive split 截取字符串获取最后一部分2022-07-21 17:05:36

spark sql整合hive-重要2022-07-17 21:34:21

Spark Streaming实时写入Hive当日分区2022-07-17 17:13:09

练习： 使用shell脚本结合sqoop命令，把Hive数据库的某张表的分区数据导出到oracle数据库的某张表2022-07-17 14:01:43

pyspark2022-07-17 13:04:46

coin-hive.com 网页挖矿分析2022-07-16 21:04:55

Hive详解2022-07-15 10:04:41

开源交流丨批流一体数据集成工具ChunJun同步Hive事务表原理详解及实战分享2022-07-12 19:35:12

Hive comment中文乱码问题解决2022-07-12 10:36:13

练习：使用shell脚本结合sqoop命令，把Hive数据库的某张表的分区数据导出到oracle数据库的某张表2022-07-17 14:01:43