循环遍历dataframe列以形成嵌套dataframe - Spark

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

正直的跑步鞋 · 斗罗大陆：最霸气的护夫狂魔宁荣荣，为了奥斯卡 ...· 3 月前 ·

大方的鼠标 · Gateway Public School· 4 月前 ·

苦闷的茴香 · [原神.MMD.布料配布] ...· 6 月前 ·

阳光的海豚 · 哥布林1：少女被哥布林捉回巢穴，帮哥布林复兴 ...· 9 月前 ·

风流的冲锋衣 · PvZ2:终极番茄 | 植物大战僵尸百科 ...· 9 月前 ·

腾讯云

开发者社区

文档建议反馈控制台

首页 TVP

最新优惠活动

文章/答案/技术大牛

发布

from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.getOrCreate()
# 创建示例dataframe
data = [("Alice", 25, 100), ("Bob", 30, 200), ("Charlie", 35, 300)]
df = spark.createDataFrame(data, ["name", "age", "salary"])
# 定义一个空的dataframe，用于存储处理后的结果
nested_df = spark.createDataFrame([], ["name", "nested"])
# 循环遍历dataframe列
for col_name in df.columns:
    # 获取列的值
    col_values = df.select(col_name).rdd.flatMap(lambda x: x).collect()
    # 对列的值进行处理，这里以将值加倍为例
    processed_values = [value * 2 for value in col_values]
    # 将处理后的结果存储在嵌套dataframe中
    nested_df = nested_df.withColumn(col_name, F.array(*[F.lit(value) for value in processed_values]))
# 显示结果
nested_df.show()

推荐文章

正直的跑步鞋 · 斗罗大陆：最霸气的护夫狂魔宁荣荣，为了奥斯卡居然连戴沐白都怼_小舞

3 月前

大方的鼠标 · Gateway Public School

4 月前

苦闷的茴香 · [原神.MMD.布料配布] 刻晴“大战”史莱姆？_哔哩哔哩_bilibili

6 月前

阳光的海豚 · 哥布林1：少女被哥布林捉回巢穴，帮哥布林复兴家族_哔哩哔哩_bilibili

9 月前

风流的冲锋衣 · PvZ2:终极番茄 | 植物大战僵尸百科 | Fandom

9 月前