在pandas DataFrame中使用索引进行分组和聚合_使用Pandas进行聚合和分组_pandas:如何使用列名进行分组和聚合？ - 腾讯云开发者社区

、

我想聚合单个列的DataFrame并计算元素的数量。然而，我总是得到一个空的DataFrame：EmptyDataFrameIndex: [1, 2, 3, 4, 5]pd.DataFrame({"A":[1, 2

浏览 13提问于2020-05-22得票数 0

1回答

Pandas.DataFrame.GroupBy.agg，聚合函数中需要的独立列。如何让它进入agg？

、、

我有一个带有两级MultiIndex的Pandas DataFrame对象。此外，它显然包含许多额外的列(例如'A'，'B'，'C'，'D'，'E')。我想对DataFrame中的单个多索引执行一些聚合函数，这些索引来自可用列的子集(例如，'C'，'D'，'E')中的每个单独列。为此，我只选择了

浏览 4提问于2020-04-29得票数 0

1回答

用另一个聚合行在dataframe中聚合行

、、、

以下是我的代码：data = {"uid": ['1','2','3','','3','','4','5'], "pid":['a','b','a','d','c','e','','

浏览 1提问于2020-08-21得票数 2

回答已采纳

2回答

以数据帧的形式返回聚合值

、

我有一个按两列分组的pandas DataFrame和一个自定义函数，该函数从每个分组的行集计算值的元组。我正在尝试收集数据帧中的结果，并使用原始的组索引进行索引。当我使用apply()时，我得到了一个带有正确索引的Series，但是值是以元组的形式出现的。我应该如何编写我的函数，以使结果成为数据帧，并按每个组的标签进行索引？这是一个基于本教程<

浏览 1提问于2017-02-27得票数 0

回答已采纳

1回答

熊猫群返回多索引和另外两个集合

、

如果按一个列分组，并使用as_index=False，这种行为在熊猫身上是可以预料的。但是，当我使用.agg时，as_index似乎不再像预期的那样运行。简而言之，这似乎并不重要。# importsimport numpy as np np.random.seed(834) summary aletter

浏览 2提问于2020-10-11得票数 0

回答已采纳

1回答

每组只有一列()

、

我有一个Pandas数据框架，并试图根据许多列来总结这些数据。下面的代码就是我想要的。ndf2.columns此外，行的索引显示，这不是我所希望的。

浏览 0提问于2014-10-01得票数 1

回答已采纳

2回答

熊猫合并在聚合栏上

、

假设我创建了一个DataFrame：df = pd.DataFrame({"a": [1,2,3,13,15], "b": [4,5,6,6,6], "c":然后按几个列进行分组和聚合..。gb合并，以便在df中创建一个新列，其中包含来自gb的相应值？2我试着做了最简单的事情： df.merge(gb, o

浏览 5提问于2015-02-05得票数 2

回答已采纳

1回答

如何在复制或群居熊猫DataFrame时保持主要秩序？

、、、、

我怎样才能有序地使用或操作(猴子补丁)熊猫，以便在结果对象上始终保持相同的主要顺序，以便进行复制和群聚？我使用pandas.DataFrame作为业务应用程序中的数据结构(风险模型)，需要快速聚合多维数据。熊猫的聚合在很大程度上取决于在底层的numpy数组上使用的主要订购方案。其影响是：案例2: 5分46秒在包含45023行和100000

浏览 4提问于2019-05-23得票数 1

回答已采纳

3回答

使用Python Panda聚合操作

、

500 利用熊猫，如何对酒店进行分组，计算每家酒店收入的min、中位数和最大。

浏览 6提问于2022-12-04得票数 0

3回答

Pandas: df.groupby()对于大数据集来说太慢了。有什么替代方法吗？

、、、

我有一个有380万行和一列的pandas.DataFrame，我尝试按索引对它们进行分组。df = df.groupby(df.index).sum()<class 'pandas.core.frame.DataFrame&

浏览 1提问于2017-06-23得票数 15

1回答

如何在聚合后将pandas数据帧转换为单索引？

、、

我一直在玩pandas数据帧中的聚合。','e'], 'c':[4,1,3,4,5,1,3,2]}) 我必须对batch列进行聚合，对列a使用mean，对列c使用min。我使用以下方法进行聚合： agg_dict = {'a':{'a':'mean'},&#

浏览 21提问于2020-09-05得票数 0

回答已采纳

2回答

使用Pandas将行数据组转换为列

、、

我使用Pandas (在Python中)从CSV中读取数据。中，其中每个唯一的分组都在一个行中，其中当前列在列1中的属性作为列名。pandas.pivot_table，也只是用我想要的列创建了一个空的dataframe，但是对于这两种方法，无论是索引还是聚合，我都遇到了困难。我认为这是因为我没有按任何一个属性分组，也没有试图<e

浏览 1提问于2016-04-25得票数 1

回答已采纳

1回答

PySpark:带有标量Pandas的无效returnType

、、

我正在尝试从pandas_udf返回一个特定的结构。它在一个集群上工作，但在另一个集群上失败。我尝试在组上运行udf，这需要返回类型为数据框架。from pyspark.sql.functions import pandas_udfimport numpy as np oneCar.loc[1:, 'Lati

浏览 2提问于2018-03-26得票数 5

回答已采纳

1回答

根据列中的值，有条件地聚合具有不同函数的分组数据框

、

import pandas as pd "group_id，方法是对group_id进行分组，然后对每个组应用不同的聚合函数。为了确定使用哪个聚合函数，我想设置一个条件，该条件引用df中的另一个列，即condition。具体地说，我想取"ones"组的val中

浏览 21提问于2021-01-24得票数 1

回答已采纳

2回答

用PySpark进行组索引

、、

但我在这两点上有困难：我在文件里没有发现任何好的东西。如果你有提示的话，我会非常感激的！

浏览 9提问于2022-10-04得票数 0

回答已采纳

1回答

如何根据一列将其他列中的连续值分组为范围

、

我有以下数据：我想从dataframe获得以下输出在熊猫中，是否还有其他基于“A”列的“B”、“索引”使用聚合函数( pivot_table )对其进行分组。

浏览 1提问于2019-11-08得票数 0

回答已采纳

1回答

Pandas "Group By“查询HDFStore中的大数据？

、、

在一个超过60列的HDFStore中，我有大约700万行。数据太多了，我放不进内存。我希望根据列"A“的值将数据聚合到组中。pandas 的文档假设我已经将所有数据放在一个DataFrame中，但是我不能将整个存储读取到内存中的DataFrame中。在HDFStore中对数据进行分组的正确方法是什么

浏览 2提问于2013-04-04得票数 21

回答已采纳

1回答

更改DataType的GroupBy方法

、

使用Python3和Anaconda，我在ipython上导入了pandas和os。我有一个非常大的csv文件。在对文件使用read_csv之后，我尝试对两列使用.groupby()，但它将数据类型从DataFrame更改为DataFrameGroupBy，并且我不能再对其运行数据框方法。import os

浏览 19提问于2019-06-21得票数 0

回答已采纳

3回答

NaN -基于列对行进行分组，并将Pandas替换为非空值

、、

我正在尝试基于目标"group-by“列在我的dataframe上使用字符串创建一些聚合。假设我有以下包含4列的数据帧：我希望根据列"Col1“对所有行进行分组，在NaN的情况下，使用非null的值进行分组。期望的输出如下所示：我也试着使用一个普通的：from tabulate import ta

浏览 23提问于2020-02-11得票数 2

回答已采纳

1回答

如何使用groupby完成此操作？

、、

我在试着比较pandas.DataFrame.pivot_table()和pandas.DataFrame.groupby。/tests/data/tips.csv' 现在，我只想聚合tip_pct和大小，并另外按天分组。我会把smoker放在表列中，把day放在行中。通过使用pivot_t

浏览 1提问于2017-03-05得票数 3

点击加载更多