ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

Spark RDD到DataFrame python

2019-09-18 05:06:52  阅读:223  来源: 互联网

标签:python apache-spark pyspark spark-dataframe


我试图将Spark RDD转换为DataFrame.我已经看到了传递方案的文档和示例
sqlContext.CreateDataFrame(rdd,schema)函数.

但我有38列或字段,这将进一步增加.如果我手动给出指定每个字段信息的模式,那将会是如此繁琐的工作.

有没有其他方法可以在不知道先前列的信息的情况下指定模式.

解决方法:

看到,

在Spark中有两种方法可以将RDD转换为DF.

toDF()和createDataFrame(rdd,schema)

我会告诉你如何动态地做到这一点.

toDF()

toDF()命令为您提供了将RDD [Row]转换为Dataframe的方法.关键是,对象Row()可以接收** kwargs参数.所以,有一种简单的方法可以做到这一点.

from pyspark.sql.types import Row

#here you are going to create a function
def f(x):
    d = {}
    for i in range(len(x)):
        d[str(i)] = x[i]
    return d

#Now populate that
df = rdd.map(lambda x: Row(**f(x))).toDF()

这样您就可以动态创建数据框.

createDataFrame(rdd,schema)

其他方法是创建动态模式.怎么样?

这条路:

from pyspark.sql.types import StructType
from pyspark.sql.types import StructField
from pyspark.sql.types import StringType

schema = StructType([StructField(str(i), StringType(), True) for i in range(32)])

df = sqlContext.createDataFrame(rdd, schema)

第二种方式更干净…

这就是你如何动态创建数据帧.

标签:python,apache-spark,pyspark,spark-dataframe
来源: https://codeday.me/bug/20190918/1810653.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有