开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Pandas dataframe groupby / rolling -为什么在新组上没有重置滚动平均值？

在使用 Pandas 进行数据处理时，groupby 和 rolling 是两个非常强大的功能。groupby 允许你按某些标准将数据分组，而 rolling 则允许你在这些组内进行滑动窗口计算。如果你发现使用 rolling 计算的滚动平均值没有在新组上重置，可能是由于以下几个原因：

基础概念

GroupBy: 这是 Pandas 中的一个功能，它允许你根据一个或多个键对数据进行分组。
Rolling: 这个功能允许你在数据上创建一个滑动窗口，并在这个窗口上执行各种计算，如求和、平均值等。

可能的原因

窗口大小设置不当: 如果窗口大小设置得太大，可能会导致滚动平均值跨越多个组。
分组键的选择: 分组键的选择可能会影响滚动窗口的计算方式。
数据排序: 如果数据没有按照分组键进行排序，rolling 可能不会按预期工作。

解决方法

确保在使用 rolling 之前，数据已经按照分组键进行了排序。此外，检查窗口大小是否适合你的数据集。

import pandas as pd

# 假设我们有一个 DataFrame
df = pd.DataFrame({
    'group': ['A', 'A', 'A', 'B', 'B', 'B'],
    'value': [1, 2, 3, 4, 5, 6]
})

# 首先，按照 'group' 列进行排序
df_sorted = df.sort_values(by='group')

# 然后进行 groupby 和 rolling 操作
result = df_sorted.groupby('group')['value'].rolling(window=2).mean().reset_index(drop=True)

print(result)

在这个例子中，我们首先对 DataFrame 进行了排序，然后使用 groupby 和 rolling 来计算每组的滚动平均值。window=2 表示我们使用的是大小为 2 的滑动窗口。

应用场景

这种技术在金融数据分析中非常常见，例如计算股票价格的移动平均线，或者在时间序列分析中计算连续时间段内的平均值。

相关优势

灵活性: 可以根据不同的分组键和窗口大小进行多种计算。
效率: Pandas 的优化使得这些操作在大型数据集上也能高效执行。

通过这种方式，你可以确保滚动平均值在新组上正确重置，并且能够根据你的具体需求调整窗口大小和分组策略。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Pandas进阶修炼120题，给你深度和广度的船新体验

在深度和广度上，都相较之前的Pandas习题系列有了很大的提升。...23.将salary列数据转换为最大值与最小值的平均值 #备注，在某些版本pandas中.ix方法可能失效，可使用.iloc，参考https://mp.weixin.qq.com/s/5xJ-VLaHCV9qX2AMNOLRtw...('education').mean()) 25.将createTime列时间转换为月-日 #备注，在某些版本pandas中.ix方法可能失效，可使用.iloc，参考https://mp.weixin.qq.com...() 72.将收盘价5日均线、20日均线与原始数据绘制在同一个图上 data['收盘价(元)'].plot() data['收盘价(元)'].rolling(5).mean().plot() data...(0, 1, 20) df3 = pd.DataFrame(tem) df3 85.将df1，df2，df3按照行合并为新DataFrame df = pd.concat([df1,df2,df3],

6.2K3 1

数据处理 | xarray的计算距平、重采样、时间窗

距平下面便提出一个问题：为什么要费尽心思研究变量的距平而非变量的原始数据？若针对于温度这个变量而言，即为什么要使用温度距平（偏离平均值的值）而不非研究绝对温度的变化？...在同一时间范围内在一个更小的尺度下（即格点分辨率）考虑变量变化的基准参考值，然后基于这个基准参考值（多年平均值）计算相对于这个基准参考值的异常变化（距平）。...Pandas Rolling (Source: forgifs.com) Rolling 方法也与pandas 包[2]中的类似，但是稍有不同的是，它可适用于任意维度。...list(rolling_obj)[4][1] 关于 pandas 中 rolling 方法的深入理解可参见详解pandas 中的 rolling[4] 参考资料 [1] 下图: https://matplotlib.org...highlight=marker [2] pandas包: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rolling.html

11.5K7 4

Python 数据分析（PYDA）第三版（五）

除了一些关于组键 df["key1"] 的中间数据之外，它实际上还没有计算任何东西。这个对象的想法是它包含了对每个组应用某些操作所需的所有信息。...这里重要的是，数据（一个 Series）已经通过在组键上拆分数据进行聚合，产生了一个新的 Series，现在由 key1 列中的唯一值进行索引。...在groupby的分割-应用-组合范式下，DataFrame 或两个 Series 中的列之间的操作，例如组加权平均，是可能的。...提示： pandas 还支持基于时间差的索引，这是一种表示实验或经过时间的有用方式。我们在本书中没有探讨时间差索引，但您可以在pandas 文档中了解更多。...250 日移动平均值表达式rolling(250)在行为上类似于groupby，但不是分组，而是创建一个对象，使得可以在 250 天滑动窗口上进行分组。

1790 0

Pandas 50题练习

('animal')['age'].mean() 在df中插入新行k，然后删除该行 #插入 df.loc['k'] = [5.5, 'dog', 'no', 2] # 删除 df = df.drop(...np.arange(0, 101, 10)))['B'].sum() print(df1) 给定DataFrame，计算每个元素至左边最近的0（或者至开头）的距离，生成新列y df = pd.DataFrame...(['grps'])['vals'].transform(replace) print(df) 计算3位滑动窗口的平均值，忽略NAN df = pd.DataFrame({'group': list(...(['group'])['value'] g2 = df.fillna(0).groupby(['group'])['value'] s = g2.rolling(3, min_periods=1)....2组数据，共用X轴，但y轴不同 df = pd.DataFrame({"revenue":[57,68,63,71,72,90,80,62,59,51,47,52],

3K2 0

Python中 Pandas 50题冲关

('animal')['age'].mean() 在df中插入新行k，然后删除该行 #插入 df.loc['k'] = [5.5, 'dog', 'no', 2] # 删除 df = df.drop(...np.arange(0, 101, 10)))['B'].sum() print(df1) 给定DataFrame，计算每个元素至左边最近的0（或者至开头）的距离，生成新列y df = pd.DataFrame...(['grps'])['vals'].transform(replace) print(df) 计算3位滑动窗口的平均值，忽略NAN df = pd.DataFrame({'group': list(...(['group'])['value'] g2 = df.fillna(0).groupby(['group'])['value'] s = g2.rolling(3, min_periods=1)....2组数据，共用X轴，但y轴不同 df = pd.DataFrame({"revenue":[57,68,63,71,72,90,80,62,59,51,47,52],

4.2K3 0

Pandas 2.2 中文官方教程和指南（二十一·一）

一些窗口操作在构造窗口对象后还支持online方法，该方法返回一个新对象，支持传入新的DataFrame或Series对象，以使用新值继续窗口计算（即在线计算）。...由于这些计算是滚动统计的特例，因此在 pandas 中实现了以下两个调用是等效的： In [74]: df = pd.DataFrame(range(5)) In [75]: df.rolling(window...概念方法返回对象支持基于时间的窗口支持链接的 groupby 支持表方法支持在线操作滚动窗口 rolling pandas.typing.api.Rolling 是是是（自版本 1.3...在构造窗口对象后，一些窗口操作还支持online方法，该方法返回一个新对象，支持传入新的DataFrame或Series对象，以继续使用新值进行窗口计算（即在线计算）。...由于这些计算是滚动统计的一个特例，因此在 pandas 中实现了以下两种调用是等效的： In [74]: df = pd.DataFrame(range(5)) In [75]: df.rolling

3610 0

Pandas图鉴(二)：Series 和 Index

对于非数字标签来说，这有点显而易见：为什么（以及如何）Pandas在删除一行后，会重新标记所有后续的行？对于数字标签，答案就有点复杂了。...索引有一个名字（在MultiIndex的情况下，每一层都有一个名字）。而这个名字在Pandas中没有被充分使用。...对于每一组，要求提供元素的总和，元素的数量，以及每一组的平均值。除了这些集合功能，还可以根据特定元素在组内的位置或相对价值来访问它们。...这对于groupby来说是不需要的。实际上，如果组内元素不是连续存储的，它也同样能工作，所以它更接近collections.defaultdict而不是itertools.groupby。...而且它总是返回一个没有重复的索引。与defaultdict和关系型数据库的GROUP BY子句不同，Pandas groupby是按组名排序的。

3392 0

Pandas高级数据处理：窗口函数

本文将由浅入深地介绍 Pandas 窗口函数的常见用法、常见问题以及如何避免或解决报错。二、窗口函数的基本概念窗口函数是一种特殊的函数，它可以在一组数据上进行计算，并返回与原始数据相同数量的结果。...在 Pandas 中，窗口函数主要用于对时间序列数据或有序数据进行滚动计算、累积计算等操作。常见的窗口函数包括 rolling、expanding 和 ewm。...滚动窗口（Rolling Window）滚动窗口是指在一个固定大小的窗口内对数据进行计算。例如，我们可以计算过去5天的平均值、最大值等统计量。...8, 9]}df = pd.DataFrame(data)# 使用 rolling 计算滚动平均值，窗口大小为3df['rolling_mean'] = df['value'].rolling(window... 方法计算了一个大小为3的滚动窗口的平均值。

1121 0

Pandas 学习手册中文第二版：11~15

，并将它们旋转到新DataFrame上的列中，同时为原始DataFrame的适当行和列中的新列填充了值。...此外，采用这种格式更容易添加新的变量和度量，因为可以简单地将数据添加为新行，而不需要通过添加新列来更改DataFrame的结构。堆叠数据的性能优势最后，我们将研究为什么要堆叠数据。...-2e/img/00574.jpeg)] DataFrame上的.groupby()的结果是GroupBy对象的子类，其中DataFrame的DataFrameGroupBy或Series的SeriesGroupBy...GroupBy对象上的[]运算符在特定列上执行聚合。...通过在序列和数据帧对象上提供.rolling()方法，pandas 为滚动窗口提供了直接支持。

3.4K2 0

Pandas进阶修炼120题｜完整版

答案 #备注，在某些版本pandas中.ix方法可能失效，可使用.iloc，参考https://mp.weixin.qq.com/s/5xJ-VLaHCV9qX2AMNOLRtw #为什么不能直接使用max...答案 #备注，在某些版本pandas中.ix方法可能失效，可使用.iloc，参考https://mp.weixin.qq.com/s/5xJ-VLaHCV9qX2AMNOLRtw for i in range...data['收盘价(元)'].rolling(5).sum() 72 数据可视化题目：将收盘价5日均线、20日均线与原始数据绘制在同一个图上难度：⭐⭐⭐ 期望结果 ?...(如标准正态分布)的数答案 tem = np.random.normal(0, 1, 20) df3 = pd.DataFrame(tem) 85 数据创建题目：将df1，df2，df3按照行合并为新...，我想你已经掌握了处理数据的常用操作，并且在之后的数据分析中碰到相关问题，希望武装了Pandas的你能够从容的解决！

12.7K10 6

Pandas库常用方法、函数集合

transform：对每个分组应用转换函数，返回与原始数据形状相同的结果 rank：计算元素在每个分组中的排名 filter：根据分组的某些属性筛选数据 sum：计算分组的总和 mean：计算分组的平均值...：绘制堆积图 pandas.DataFrame.plot.bar：绘制柱状图 pandas.DataFrame.plot.barh：绘制水平条形图 pandas.DataFrame.plot.box：绘制箱线图...pandas.DataFrame.plot.density：绘制核密度估计图 pandas.DataFrame.plot.hexbin：绘制六边形分箱图 pandas.DataFrame.plot.hist...：绘制直方图 pandas.DataFrame.plot.line：绘制线型图 pandas.DataFrame.plot.pie：绘制饼图 pandas.DataFrame.plot.scatter：...: 用于滚动窗口的操作 expanding: 用于展开窗口的操作 at_time, between_time: 在特定时间进行选择 truncate: 截断时间序列

3161 0

玩转数据处理120题｜Pandas版本

Python解法 import numpy as np import pandas as pd df = pd.DataFrame(data) # 假如是直接创建 df = pd.DataFrame(...Python解法 df['收盘价(元)'].rolling(5).sum() 72 数据可视化题目：将收盘价5日均线、20日均线与原始数据绘制在同一个图上难度：⭐⭐⭐ 期望结果 ?...，df3按照行合并为新DataFrame 难度：⭐⭐ Python解法 df = pd.concat([df1,df2,df3],axis=0,ignore_index=True) 86 数据创建题目...：将df1，df2，df3按照列合并为新DataFrame 难度：⭐⭐ 期望结果 0 1 2 0 95 0 0.022492 1 22 5 -1.209494 2 3 10 0.876127 3 21...，我想你已经掌握了处理数据的常用操作，并且在之后的数据分析中碰到相关问题，希望武装了Pandas的你能够从容的解决！

7.6K4 1

Pandas学习笔记之时间序列总结

因为 Pandas 是在金融背景基础上发展而来的，因此它具有一些特别的金融数据相关工具。...这个统计任务可以通过Series和DataFrame对象的rolling()方法来实现，这个方法的返回值类似与我们之前看到的groupby操作（参见聚合与分组）。...例如，下面是对谷歌股票价格在 365 个记录中居中求平均值和标准差的结果： rolling = goog.rolling(365, center=True) # 对365个交易日的收市价进行滚动窗口居中...和 groupby 操作一样，aggregate()和apply()方法可以在滚动窗口上实现自定义的统计计算。...还有一个很方便的聚合操作就是滚动平均值，使用pd.rolling_mean()函数。

4.2K4 2

50道练习实践学习Pandas！

基本操作 1.导入 Pandas 库并简写为 pd，并输出版本号 import pandas as pd pd....('animal')['age'].mean() 17.在df中插入新行k，然后删除该行 #插入 df.loc['k'] = [5.5, 'dog', 'no', 2] # 删除 df = df.drop...sum(level=0) print(df1) 27.给定DataFrame，有列A, B，A的值在1-100（含），对A列每10步长，求对应的B的和 df = pd.DataFrame({'A':...(['group'])['value'] g2 = df.fillna(0).groupby(['group'])['value'] s = g2.rolling(3, min_periods=1)...50.在同一个图中可视化2组数据，共用X轴，但y轴不同 df = pd.DataFrame({"revenue":[57,68,63,71,72,90,80,62,59,51,47,52],

3.8K1 0

【干货】pandas相关工具包

panel data是经济学中关于多维数据集的一个术语，在Pandas中也提供了panel的数据类型。 Pandas用于广泛的领域，包括金融，经济，统计，分析等学术和商业领域。...在本教程中，我们将学习Python Pandas的各种功能以及如何在实践中使用它们。 2 Pandas 主要特点快速高效的DataFrame对象，具有默认和自定义的索引。...") 大家可以观摩下pandas_profiling 在Titanic Dataset数据上生成的数据分析报告，真的很强大！...(args).apply(func) df.groupby(args).parallel_apply(func) df.groupby(args1).col_name.rolling(args2).apply...(func) df.groupby(args1).col_name.rolling(args2).parallel_apply(func) df.groupby(args1).col_name.expanding

1.6K2 0

R用户要整点python--pandas进阶

1.缺失值2.处理缺失值练习：处理缺失值3.Apply4.tidy数据重置索引练习5.groupby练习：groupby 1.缺失值我的补充：在python中，NaN、NULL、NA、None都是缺失值的意思...import pandas as pd df = pd.DataFrame({'name':['John Smith','Jane Doe','Mary Johnson'],...将treatment_a列里面的NA填充上该列的平均值，传递给a_fill列： df.a_fill = df.treatment_a.fillna(a_mean) df ## name treatment_a...(也有melt，被哈德雷大佬自己嫌弃然后新写了函数) melt，宽变长 pviot_table ,长变宽 import pandas as pd import numpy as np df = pd.DataFrame...columns是新数据框列名是旧数据框的哪一列 values是新数据框每列的内容是旧数据框的哪一列重置索引得到常规的dataframe，行名变成索引，原来的行名成为现在的第一列 df_melt_pivot.reset_index

441 0

数据科学 IPython 笔记本 7.14 处理时间序列

Pandas 是在金融建模的背景下开发的，正如你所料，它包含一组相当广泛的工具，用于处理日期，时间和时间索引数据。...滚动窗口滚动统计量是 Pandas 实现的第三种时间序列特定的操作。...这些可以通过Series和DataFrame对象的rolling()属性来完成，它返回一个视图，类似于我们在groupby操作中看到的东西（参见“聚合和分组”）。这个滚动视图默认提供许多聚合操作。...例如，以下是 Google 股票价格的一年中心化滚动均值和标准差： rolling = goog.rolling(365, center=True) data = pd.DataFrame({'input...另一种方便的汇总数据的方法是滚动均值，使用pd.rolling_mean()函数。

4.6K2 0

使用 Python 进行财务数据分析实战

接下来，对原始时间序列重新采样，以计算四个月的平均值，创建了名为quarter的新时间序列。最后，计算了每个四个月期间的平均值之间的百分比变化，表示了每个四个月期间的比例增加或减少。...它调用了名为 cum_daily_return 的 Pandas DataFrame 或 Series 上的 plot 方法，用于生成累积每日收益图。...然后将此相关性显示在图表上，以直观地展示两只股票之间随时间变化的相关性。...制作了一个新图形，其子图包含一组标记为投资组合价值（以美元计）的轴，以显示投资组合总价值随时间的变化。折线图的线宽为 2，买入卖出信号分别用洋红色黑色三角形表示，大小为 10。...然后，将这些值绘制在图表上，以直观显示在选定期限内持有AAPL股票的潜在风险。

9561 0

30 个小例子帮你快速掌握Pandas

DataFrame现在没有任何缺失值。 df.isna().sum().sum() --- 0 9.根据条件选择行在某些情况下，我们需要适合某些条件的观察值（即行）。...13.通过groupby应用多个聚合函数 agg函数允许在组上应用多个聚合函数。函数列表作为参数传递。 df[['Geography','Gender','Exited']]....您可能已经注意到，groupby返回的DataFrame的索引由组名组成。...如果我们将groupby函数的as_index参数设置为False，则组名将不会用作索引。 16.带删除的重置索引在某些情况下，我们需要重置索引并同时删除原始索引。...重设索引，但原始索引保留为新列。我们可以在重置索引时将其删除。

10.8K1 0

Pandas三百题

2 - pandas 个性化显示设置 1.显示全部列 pd.set_option('display.max_columns',None) 2.显示指定行/列指定让 data 在预览时显示10列，7行...('district').agg({'salary': [np.mean, np.median, np.std], 'score': np.mean}) 21 - 聚合统计｜自定义函数在 18 题基础上...，在聚合计算时新增一列计算最大值与平均值的差值 def myfunc(x): return x.max()-x.mean() df.groupby('district').agg(最低工资=...只取结果的交集 pd.concat([df1,df4],axis=1,join='inner') 16 - concat｜横向拼接（取指定）在 14 题基础上，只取包含 df1 索引的部分 pd.concat...set_index("日期")['收盘'].rolling(window=20).mean().plot() df1.set_index("日期")['收盘'].plot() 20 - 金融计算｜指数移动平均值

4.8K2 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭