标签:basePath userid 按年 zyk parquet spark spqrk select
按月、按季、按年读取parquet文件
案列
// 启动spark yarn
spark_yarn目录:./bin/spark-shell --master yarn --deploy-mode client --executor-cores 4 --num-executors 3
// 设置基础目录:parquet文件时按日期分片存储
scala> val basePath = "hdfs://192.168.88.1:8020/data/userzyk.parquet/"
// 读取一个不同目录的parquet文件,也可以读取多个逗号分隔(url,url...)比如按季统计
scala> val parquetFile = spark.read.option("basePath",basePath).parquet(basePath + "date=2021-01-*" +"/group=zyk/project=zyk")
//获取map集合key为“user”的json对象或字符串
scala> val users = parquetFile.select("args.user")
//拿到字符串后,只取userid,根据userid切分获取第2个值,再切分....
scala> val userids = users.withColumn("tmp_", split($"user", "userid")).select($"tmp_".getItem(1).as("tmp2")).withColumn("tmp3_", split($"tmp2", "'")).select($"tmp3_".getItem(2).as("userid"))
//此时就只有一个字段了,userid去重,统计id数量
scala> userids.dropDuplicates("userid").count()
//上述步骤的连贯操作,统计季度
scala> spark.read.option("basePath",basePath).parquet(basePath + "date=2020-01-*" +"/group=zyk/project=zyk",basePath + "date=2020-02-*"+"/group=zyk/project=zyk",basePath + "date=2020-03-*"+"/group=zyk/project=zyk").select("args.user").withColumn("tmp_", split($"user", "userid")).select($"tmp_".getItem(1).as("tmp2")).withColumn("tmp3_", split($"tmp2", "'")).select($"tmp3_".getItem(2).as("userid")).dropDuplicates("userid").count()
常用命令:
//取3个值打印
DataFormat.take(3).foreach(println)
//创建视图 相当于表,可以用sql查询
DataFormat.createOrReplaceTempView("t_userid")
// 打印创建的表结构信息
DataFormat.printSchema()
//sql语句
ar sql:String =
"""
|select distinct * from t_userid
|""".stripMargin
//根据sql查询
spark.sql(sql).show()
//具体目录取值
spark.read.format("parquet").load("hdfs://192.168.88.1:8020/data/userzyk.parquet/date=2019-12-22").show()
spark具体使用或快速入门请参考我的博客:https://blog.csdn.net/z1987865446
标签:basePath,userid,按年,zyk,parquet,spark,spqrk,select 来源: https://blog.csdn.net/z1987865446/article/details/113404475
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。