spark 写 parquet 文件到 hdfs 上、以及到本地

2021-06-28 16:33:03 阅读：584 来源： 互联网

标签：hdfs val DataFrame parquet import spark

spark 写 parquet 文件到本地

package SQL
import org.apache.spark.SparkContext
import org.apache.spark.sql.{DataFrame, SparkSession}

object Demo7_2 extends App {
  val spark: SparkSession = SparkSession.builder().master("local[4]")
  .appName("demo1").getOrCreate()
  val sc: SparkContext = spark.sparkContext
  import spark.implicits._

  private val df: DataFrame = spark.read.json("D:\\INTELLIJ\\Spark\\data\\users.json")
  df.write.parquet("file:///D:\\INTELLIJ\\Spark\\parquetoutput")
  
  private val df2: DataFrame = spark.read.parquet("file:///D:\\INTELLIJ\\Spark\\parquetoutput")
  df2.show()
}

spark 写 parquet 文件到 hdfs 上

package SQL
import org.apache.spark.SparkContext
import org.apache.spark.sql.{DataFrame, SparkSession}

object Demo7_2 extends App {
  val spark: SparkSession = SparkSession.builder().master("local[4]")
  .appName("demo1").getOrCreate()
  val sc: SparkContext = spark.sparkContext
  import spark.implicits._

  private val df: DataFrame = spark.read.json("D:\\INTELLIJ\\Spark\\data\\users.json")
  df.write.parquet("hdfs://192.168.1.54:9000/kgc/parquetoutput")
 
  private val df2: DataFrame = spark.read.parquet("hdfs://192.168.1.54:9000/kgc/parquetoutput")
  df2.show()
}

需要注意的点：
（1）“file:///” 与 “hdfs://”
（2）“hdfs://ip:9000”
（3）若报错hdfs上面的文件夹的权限问题，需要用到的命令是 hdfs dfs -chmod -R 777 /文件名

标签：hdfs,val,DataFrame,parquet,import,spark
来源： https://blog.csdn.net/qq_43368947/article/details/118306177

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

spark 写 parquet 文件到 hdfs 上、以及到本地