在使用Pandas进行数据分析时,有时我们需要计算分组内多列的和。下面将介绍如何使用自定义函数实现这一需求,并结合groupby函数和apply函数进行聚合计算。
首先,我们定义一个自定义函数,该函数将多个列名作为参数,并返回这些列的总和。假设我们有一个DataFrame名为df,它包含多个数据列,我们要计算这些列的和。
import pandas as pd
def sum_columns(df, columns):
return df[columns].sum(axis=0)
接下来,我们将使用groupby函数对指定的列进行分组,并将上述自定义函数应用于每个分组。假设我们根据列名’group_column’进行分组。
df_grouped = df.groupby('group_column')
sums = df_grouped.apply(sum_columns, columns=['column1', 'column2', 'column3'])
sums` 是一个新的DataFrame,它包含了每个组的’column1’、’column2’和’column3’的和。您可以根据需要修改列名和分组列名。