我是Pandas的新手,我有一个如下形式的数据框架:
date category value
0 2017-11-30 13:58:57 A 901
1 2017-11-30 13:59:41 B 905
2 2017-11-30 13:59:41 C 925
第一列是日期,第二列是分类的,有三个已知的类别。
它是通过以下方式生成的:
import pandas as pd
df = pd.DataFrame.from_items( [('date', ['2017-11-30 13:58:57', '2017-11-30 13:59:41', '2017-11-30 13:59:41']),('category',['A','B', 'C']),("value", [901, 905, 925])])
df['date'] = pd.to_datetime(df['date'])
df['category'] = df['category'].astype('category')
问题是,对于每个日期,并不是所有类别都在那里。我希望添加缺少值的缺少类别来获取:
date category value
0 2017-11-30 13:58:57 A 901
1 2017-11-30 13:58:57 B nan
2 2017-11-30 13:58:57 C nan
3 2017-11-30 13:59:41 A nan
4 2017-11-30 13:59:41 B 905
5 2017-11-30 13:59:41 C 925
有没有一种内置的方法可以做到这一点,而不是迭代行?
发布于 2017-12-13 10:21:51
您可以通过MultiIndex.from_product
使用reindex
df = df.set_index(['date','category'])
cats = pd.MultiIndex.from_product(df.index.levels, names=df.index.names)
df = df.reindex(cats).reset_index()
print (df)
date category value
0 2017-11-30 13:58:57 A 901.0
1 2017-11-30 13:58:57 B NaN
2 2017-11-30 13:58:57 C NaN
3 2017-11-30 13:59:41 A NaN
4 2017-11-30 13:59:41 B 905.0
5 2017-11-30 13:59:41 C 925.0
df = (df.set_index(['date','category'])['value']
.unstack()
.stack(dropna=False)
.reset_index(name='value'))
print (df)
date category value
0 2017-11-30 13:58:57 A 901.0
1 2017-11-30 13:58:57 B NaN
2 2017-11-30 13:58:57 C NaN
3 2017-11-30 13:59:41 A NaN
4 2017-11-30 13:59:41 B 905.0
5 2017-11-30 13:59:41 C 925.0
https://stackoverflow.com/questions/47790528
复制相似问题