spark-shell 启动设置动态分区，snappy压缩、parquet存储以及备份

2021-07-08 09:34:30 阅读：481 来源： 互联网

标签：10 shell val -- snappy conf parquet import spark

1、spark-shell 启动设置动态分区

  --executor-memory 16G \
  --total-executor-cores 10 \ 
  --executor-cores 10 \
  --conf "spark.hadoop.hive.exec.dynamic.partition=true" \
  --conf "spark.hadoop.hive.exec.dynamic.partition.mode=nonstrict" 
  --conf spark.sql.shuffle.partitions=10 \
  --conf spark.default.parallelism=10 \

2、spark-sql对表压缩及备份

val sqlContext = new org.apache.spark.SQLContext(sc);
import org.apache.hadoop.conf.Configuration
import org.apache.fs.{FileSystem, FileUtil, Path ,FileStatus}
import scala.collection.mutable.{ArrayBuffer, ListBuffer}
import scala.io.Source
import java.io.PrintWrite

val tbn = "src_es"
val tbn = Array("middata","decision_info")

for (tb <- tbn){
    println(dbn+"."+tb)
    val df = sqlContext.sql("select * from "+dbn+"."+tb)
    df.write.option("compression","snappy").format("parquet")
    .save("/backupdatafile/"+dbn+".db/"+tb)
    val dbtb = spark.read.parquet("/backupdatafile/"+dbn+".db/"+tb)
    dbtb.createOrReplaceTempView("test_"+tb)
    spark.sql("insert overwrite table "+dbn+"."+tb+" select * from test_"+tb);
}

标签：10,shell,val,--,snappy,conf,parquet,import,spark
来源： https://www.cnblogs.com/DengWhichone/p/14984591.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

spark-shell 启动设置动态分区，snappy压缩、parquet存储以及备份

1、spark-shell 启动设置动态分区

2、spark-sql对表压缩及备份