python-如何在不使用RDD API的情况下摆脱pyspark数据帧中的行包装器对象？

2019-10-26 14:56:50 阅读：190 来源： 互联网

标签：apache-spark pyspark apache-spark-sql spark-dataframe python

我针对临时视图发布以下SQL语句

cloudantdata.createOrReplaceTempView("washingflat")

sqlDF = spark.sql("SELECT temperature FROM washingflat")
sqlDF.rdd.map(lambda row : row.temperature).collect()

我只是对普通的(展开的)整数值感兴趣.到目前为止,我使用dataframe API进行的所有尝试始终返回包装了我感兴趣的值的行对象.

有没有一种方法可以在不使用RDD API的情况下获取标量内容？

解决方法:

所以给定一个输入DataFrame

import numpy as np
import pandas as pd
test_df = pd.DataFrame({'Age': np.random.uniform(0,100, size = (100,)), 'City': 'LA'})
sqlContext.createDataFrame(test_df).registerTempTable('AgeTable')

有两种(主要)方法可以在不使用行抽象的情况下提取值.第一种是使用DataFrame / SQL查询的.toPandas()方法

print(sqlContext.sql("SELECT Age FROM AgeTable").toPandas()['Age'])

这将返回一个Pandas DataFrame /系列.

第二个是将数据实际分组到SQL内部,然后从单个Row对象中提取数据

al_qry = sqlContext.sql("SELECT City, COLLECT_SET(Age) as AgeList FROM AgeTable GROUP BY City")
al_qry.first()[0].AgeList

这将返回原始的python列表.

toPandas方法是更有效的方法,将来可能会对此方法进行进一步的改进.

标签：apache-spark,pyspark,apache-spark-sql,spark-dataframe,python
来源： https://codeday.me/bug/20191026/1937438.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

python-如何在不使用RDD API的情况下摆脱pyspark数据帧中的行包装器对象？