在pandas中,可以使用groupby()
方法按照指定的列或多个列对DataFrame进行分组。然后,可以使用apply()
方法将回归模型中的一列值添加到每个分组的DataFrame中。
下面是一个完整的示例代码:
import pandas as pd
from sklearn.linear_model import LinearRegression
# 创建一个示例DataFrame
data = {'Group': ['A', 'A', 'B', 'B', 'C', 'C'],
'Value': [1, 2, 3, 4, 5, 6]}
df = pd.DataFrame(data)
# 定义回归模型函数
def add_regression_value(group):
X = group.index.values.reshape(-1, 1)
y = group['Value']
model = LinearRegression()
model.fit(X, y)
group['RegressionValue'] = model.predict(X)
return group
# 按Group列分组,并将回归模型中的一列值添加到df中
df = df.groupby('Group').apply(add_regression_value)
# 打印结果
print(df)
这段代码首先创建了一个示例的DataFrame,其中包含两列:Group和Value。然后,定义了一个名为add_regression_value()
的函数,该函数接受一个分组DataFrame作为参数,并在该分组DataFrame中计算回归模型的预测值,并将预测值添加为新的列RegressionValue。最后,使用groupby()
方法按Group列分组,并使用apply()
方法将add_regression_value()
函数应用于每个分组的DataFrame。最终,将结果赋值给原始的df。
这样,就可以在pandas中按df分组,并一次将回归模型中的一列值添加到df中。
领取专属 10元无门槛券
手把手带您无忧上云