如何创建一个Pandas Groupby对象，其中每个列都有一个原始数据过滤器？_创建一个列表，其中每个列表对象都有自己的子对象_如何基于groupby，pandas DataFrame创建一个新的字典列？ - 腾讯云开发者社区

、

我正在对一个数据帧进行一些分析，其中一列是一个值为0或1的整数(类似于布尔值，但为整数形式)。它看起来像这样： Nat. | Result -------|------- CA | 1 USA | 0 GB | 1 USA | 1 CA | 0 GB | 1 我根据国籍列对数据进行了分组，其中一个值(上面示例中的GB)产生了-by chance-一个所有成员都只有1的组。这就产生了一个问题，因为我调用了一个包含group_obj.get_group(0)的函数，这会导致运行时错误"KeyError: 0“ 我的问题是:我想创建

浏览 0提问于2016-02-18得票数 5

1回答

访问groupby列值

、、

如果我在pandas中使用了groupby函数(在LOC上)，并进行了重采样，例如，我可以获得某个地点的日平均压力和流量值。有没有办法访问groupby列中的值，LOC，按索引或其他方法，以便我可以将其用作绘图的标题。换句话说，我可以访问“venue1”吗？我不得不使用groupby来获取重采样数据帧中的venue列，因为重采样似乎不会带来任何非数字字段 date flow (l/s) pressure(m) count year day LOC

浏览 10提问于2020-06-27得票数 0

2回答

使用Pandas Getdummies或isin从包含列表的要素创建布尔要素

、

我有一个pandas dataframe，其中一列包含每个实例的唯一字符串列表： obj_movies['unique_genres'].head() 0 [Action, Fantasy, Adventure, Science Fiction] 1 [Action, Fantasy, Adventure] 2 [Action, Adventure, Crime] 3 [Action, Drama, Thriller, Crime] 4

浏览 18提问于2018-06-14得票数 0

回答已采纳

1回答

为什么重铸一个熊猫群对象作为一个数据数据写到excel？

、、

如果我将csv文件读入熊猫的dataframe中，然后使用groupby (pd.groupby(column1，.))，为什么不能在新的分组对象上调用to_excel属性。 import pandas as pd data = pd.read_csv("some file.csv") data2 = data.groupby(['column1', 'column2']) data2.to_excel("some file.xlsx") #spits out an error about series lacking the a

浏览 5提问于2015-12-29得票数 2

回答已采纳

2回答

熊猫:将另一列的行值按群乘为新列

、、

我有一个像这样的DataFrame。我试图添加一个新列df' new _sales‘，其中我将df’‘rate’乘以df‘’state‘，'store’之和。 import pandas as pd data = [['california', 'a', 11, 0.6], ['california', 'a', 12, 0.4], ['california', 'b', 32, 0.7]] df= pd.DataFrame(data, columns=['state'

浏览 3提问于2021-10-06得票数 1

回答已采纳

1回答

如何合并值

、

(初学者Python-Pandas)您好，我有一个数据框架，其中一个列告诉我用户的名称(user_id)，另一个列包含附加到它的组织(org_name)。在简单的情况下，每个用户都有一个唯一的组织，但有时会发生一个用户有多个组织的情况。我想将拥有多个组织的用户的名称合并为"org1-org2-org3“，用于这些特殊用户的每一行。目前，我可以用简单的代码找到特殊的用户，比如：base['user_id'].value_counts()>=2，它告诉我哪些用户在我的数据框中重复，因为他们有几个组织。我想要创建一个循环或函数，其推理如下:我取行"i“-

浏览 12提问于2021-05-21得票数 0

回答已采纳

1回答

从宽格式的时间序列数据中移除前两个有效数据点

、、

我有数据，其中每行作为客户和他们购买的数量。数据从2018年1月到2018年12月共12列(每列为一个月)。假设以客户X1为例，我的数据从2018年6月开始，因此该行的前5列为空。对于customer X2，我的数据从2018年8月开始，因此该行的前7列为空。对于customer X3，我的数据从2018年1月开始，因此所有列都有数据点。对于每一行(即)每个客户，我想删除前2个数据点，并使它们为空。红色表示空值。 df = pd.DataFrame({'Jan-18': [np.nan, np.nan, 15], '

浏览 0提问于2021-02-16得票数 0

4回答

在pandas中过滤GroupBy之后的组，同时保留这些组

、、

在pandas中，我想要做的是：df.groupby('A').filter(lambda x: x.name > 0) - group by列A，然后过滤名称为non positive的组。但是，当GroupBy.filter返回DataFrame时，这会取消分组，从而丢失分组。我想按这个顺序来做，因为它应该对计算要求较低，因为filter后面跟着groupby会遍历DataFrame两次，不是吗(首先过滤，然后分组)？此外，克隆分组中的组(到字典或其他东西)将失去无缝返回到数据帧的功能(就像在.filter的示例中，您直接获取DataFrame)。谢谢示例：

浏览 3提问于2018-04-14得票数 12

1回答

使用groupby方法(Python)从所有子组获取最大行

、、、、

我有这个数据框架，其中我有3列‘区域’，‘州或省’，‘销售’，我已经按地区和州或省分组，并希望在销售中获得价值。但我想从每个地区得到最大的州！我怎么能得到？ sales_by_state = df_n.groupby(['Region', 'State or Province'])['Sales'].sum() sales_by_state = sales_by_state.to_frame() sales_by_state

浏览 8提问于2022-12-02得票数 0

2回答

熊猫:创建列的数据，其中组对象列的中值高于阈值。

、

我有一个包含gene_name、sample_name、value和e_id列的数据文件。我想要创建一个数据create，其中只包含一个value中所有sample_name的中间值超过一个阈值的行。例如，如果我有以下数据： e_id gene_name sample_name value 1 gene1 sample1 10 2 gene1 sample1 21 3 gene1 sample1 31 4 gene2 sample1 40 5 g

浏览 2提问于2016-04-13得票数 1

回答已采纳

1回答

删除具有太多结果相等值的时间序列行

、

我有一个时间序列，即有一个列(包含值)和索引(包含时间戳)的pandas.DataFrame。有许多值为0，我希望连续检查0。如果一个接一个有太多的0，我想删除太多的0。例如，如果只允许0持续5秒，那么表示时间跨度超过5秒的所有行都要缩减为0的前5秒： value time 12:01:01.001 1 12:01:01.002 0 12:01:01.004 6 12:01:01.010 4 12:01:03.010 0 12:01:05.010 0 12:01:08.010 0 12:01:10.010 0 12:01:10.510 0 12:

浏览 0提问于2017-04-21得票数 0

回答已采纳

1回答

每个属性的分割

、、

我正试着读一个大的CSV。然后根据列team中的唯一值将大CSV拆分为更小的CSV文件。首先，我为每个team创建了新的数据格式。生成的新txt文件，每个team列中的唯一值都有一个。码 import pandas as pd df = pd.read_csv('combined.csv') df = df[df.team == 'RED'] df.to_csv('RED.csv') 但是，我想从一个数据each开始，读取所有唯一的“team”，并为每个团队创建一个带有头文件的.txt文件。有可能吗？

浏览 0提问于2021-02-02得票数 1

回答已采纳

1回答

理解Python Pandas中的groupby()

、、

我在试着理解groupby()操作。仅仅理解群群数据是不够的，因为这仅仅是第一步，我们用它做了更多的工作： df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'], 'Max Speed': [380., 370., 24., 26.], 'Class': ['Prey', 'Prey',

浏览 2提问于2020-01-21得票数 3

回答已采纳

5回答

Python Pandas如何将groupby操作结果分配回父数据帧中的列？

、、、

我在IPython中有以下数据框，其中每一行都是一只股票： In [261]: bdata Out[261]: <class 'pandas.core.frame.DataFrame'> Int64Index: 21210 entries, 0 to 21209 Data columns: BloombergTicker 21206 non-null values Company 21210 non-null values Country 21210 non-null values MarketCa

浏览 3提问于2012-08-30得票数 99

回答已采纳

2回答

如何在数据集上使用pandas找到中位数？

、

我有数据帧数据，它有3列-日期，段和指标。我正在做以下工作： data = pandas.read_csv("Filename.csv") ave = data.groupby('Segment').mean() #works ave = data.groupby('Segment').median() #gives error ave['median'] = data.groupby('Segment').median() Traceback (most recent call last): File &#

浏览 3提问于2012-10-25得票数 1

1回答

如何从Python Pandas中的几个数据点重新计算单元格的百分比？

、

我已经在Stackexchange上浏览了不同的问题，但还没有想好如何在Pandas中做我需要的事情。我认为这最终会非常简单！我正在做一个任务，其中一个数据集有一堆产品，每个产品在它所在的每个商店都有一行。因此，产品A将有单独的食品，药店，目标，沃尔玛等线。然后，它的可用性和该网点的重要性成倍增加，我需要将结果重新百分比等于100%。现在我在Excel/Google工作表中手动操作，但这很烦人和乏味。我可以告诉如何使用Groupby获得每个产品E列的总和，但我不知道如何显示每个产品的数字，以便E列中的每个数字可以划分为E列。有人有什么建议吗？

浏览 0提问于2018-04-19得票数 0

3回答

我怎样才能在熊猫群中得到最受欢迎的物品？

、、、

我有一款Pandas Dataframe，里面装着汽车供销售，我想得到每个品牌最受欢迎的产品，但是我似乎做不到。我有一个熊猫的数据栏(例如:车辆类型，价格，里程，年份，品牌，型号等)和每个汽车品牌，我想检查哪一个模式发生最多。我试过用一个群，像这样： popular_models = dataset.groupby('brand').model.value_counts().groupby(level=0).nlargest(1) 但是它返回一个Pandas系列，其中我想要的一些数据存储在索引中，它还添加了一个重复的列，对我来说没有任何意义。我想要一个包含3列的DataFr

浏览 1提问于2019-01-15得票数 2

回答已采纳

1回答

如何在Pandas中复制excel的计数功能

、、

我正在尝试添加一个“月度订单”列，该列计算具有特定id的客户在特定CohortDate中的事务数量。基本上，它是一个COUNTIFS函数，其中的范围都是IDS，所有的CohortDates都等于给定行的ID和CohortDate。任何帮助都是非常感谢的。 import pandas as pd import numpy as np df = pd.DataFrame({'order_id': [75054,75057,75059,75061,75066], 'customer_id': [101692,101694,1

浏览 0提问于2019-08-06得票数 1

回答已采纳

1回答

如何根据基于行的计算将新列添加到我的Pandas DataFrame中？

、

假设我有一个带有两列的Pandas DataFrame : 1) user_id，2)步骤(其中包含给定日期的步骤数)。现在，我要计算前一个度量中的步骤数和步骤数之间的差异(在我的DataFrame中，度量保证是有序的)。因此，这基本上可以归结为在我的DataFrame中附加一个额外的列，其中此数据帧的行值与这一行中的列'steps‘的值相匹配，减去上面行中的'steps’列的值(如果这是第一行的话)。更复杂的是，我希望计算每个user_id的这些差异，因此我希望确保不减去具有不同user_id的两行的步骤值。有人知道如何用Python2.7和Panda完成这个任务吗？举

浏览 2提问于2015-01-23得票数 0

回答已采纳

1回答

基于逻辑矩阵的熊猫群图

、、、

a 0 0 0 0 1 a 0 0 0 1 1 a 1 0 0 1 1 b 1 0 0 1 1 c 0 0 1 1 1 c 1 0 0 0 0 c 0 1 0 0 0 如果我有一个像上面那样的Pandas数据，我如何按照a，b和c对数据进行分组，然后绘制每一列的和/数？理想情况下，我应该在我的条形图中有3个组，每个组都有5条代表该组中该列的和/计数。

浏览 2提问于2016-10-30得票数 2

回答已采纳

3回答

计算每个组的唯一值数。

、、、、

我有两列-- _a，_b。 import numpy as np import pandas as pd df = pd.DataFrame({'_a':[1,1,1,2,2,3,3],'_b':[3,4,5,3,3,3,9], 'a_b_3':[3,3,3,1,1,2,2]}) df _a _b a_b_3 0 1 3 3 1 1 4 3 2 1 5 3 3 2 3 1 4 2 3 1 5 3 3 2 6 3 9 2 我需要创建列a_b_3

浏览 0提问于2018-05-10得票数 0

回答已采纳

2回答

是否有一个函数可以对依赖数据类型求和？

、

我在pandas中有一个数据帧，其中包含Year (整数)、Loc (整数的有序对)和Rain (布尔值)列。每个Year都有许多Rain数据点。例如，在图表中，您可能会看到： Year | Loc | Rain 1700 (0, 0) 1 1700 (0, 0) 1 1700 (5, 6) 0 等。如果Year和Loc相同，有没有一个函数可以将这些数据点组合成一个数据点，其中Rain是相应的Year和Loc点的所有Rain点的总和？

浏览 1提问于2015-10-06得票数 0

2回答

在多索引数据框架中添加列

、、

我有一个多索引数据框架，其中最左边的索引是NBA球员，第二级索引是NBA赛季(即2018-19赛季)。我想添加一个专栏，对每个球员赛季进行编号。例如，在下面的日期框的顶部，我想在season旁边添加一列，将A.J. Guyton的2000-01赛季列为'1‘，将他的2001-02赛季列为'2’。则该过程将对整个数据帧中的下一个播放器重复。 Age Tm OBPM BPM DBPM Player Season A.J. Guyton 2000-01 22

浏览 21提问于2019-10-02得票数 0

回答已采纳

1回答

pandas数据帧中的函数，用于复制R中的dplyr group_by(多变量)函数

、、、

考虑一下这种情况：在dplyr中： df = df%>% group_by(a,b) %>% 表示数据帧首先按列a分组，然后按b分组。在我的例子中，我尝试先按group_name列、然后按user_name、再按type_of_work对数据进行分组。有三列以上(这就是我感到困惑的原因)，但我需要根据这三个标题以相同的顺序对数据进行分组。在这个阶段之后，我已经有了一个处理列的算法。我只需要一个算法来创建一个根据这三列分组的数据帧。在我的例子中，像dplyr函数一样保留序列是很重要的。我们在pandas data-frame中有类似的东西吗？

浏览 0提问于2017-06-19得票数 1

1回答

Python -为接近重复的行保留新列中的不同值，然后删除重复行

、、、

我有一个pandas dataframe，它是查询的结果，其中1列创建重复的行。我需要帮助通过名称识别重复项的非重复值，然后动态创建包含所有值的新列，然后删除重复项。下面的Mike在列"Code“中有重复项，Mark在"Lang”列中有重复项，所以我希望每行都有新的列用于非重复值。 ID | Name | Code | Lang | 1 | Mike | 25 | SQL | 1 | Mike | 26 | SQL | 1 | Mike | 27 | SQL | 2 | Mark | 3

浏览 0提问于2020-02-25得票数 1

1回答

在pandas中将多行合并为一个包含附加列的行

、

假设我有下面的数据帧： import pandas as pd rankings = {'Team': ['A', 'A', 'B', 'B', 'C', 'C', 'C'], 'Description': ['Aggressive', 'Strong', 'Passive',

浏览 16提问于2021-05-25得票数 1

1回答

如何在熊猫数据框中找到每个地区幸福感得分最低和最高的国家？

、、、

我有一个熊猫数据帧"df“，它的列是[Country,Region,Happiness Score,Year]。 df中包含3 years(2015,2016,2017)数据的165国家总数，因此df的长度为165*3=495。 df中总共有10唯一的区域，每个国家/地区在“region”列中都有自己的区域名称。我想要生成一个输出，显示每个唯一地区具有最小和最大幸福度得分的国家。例如，输出应该具有如下列：Region,Min Happiness Score,Max Happiness Score,Country具有该地区的最小幸福得分，国家具有该地区的最高幸福得分。由于有10个独

浏览 28提问于2020-05-11得票数 0

1回答

Python Pandas按迭代分组

、、、

在Python3.6中，我在for循环的帮助下遍历了pandas dataframe中的groupby列。这样做的问题是，如果我有很多数据，它就会变得很慢。这是我的代码： import pandas as pd dataDict = {} for metric, df_metric in frontendFrame.groupby('METRIC'): # Creates frames for each metric dataDict[metric] = df_metric.to_dict('records') # Converts dataframe

浏览 0提问于2018-03-01得票数 0

回答已采纳

1回答

pandas groupby忽略NAs

、、

我有一台有很多NAs的DataFrame。pandas的groupby操作忽略其中包含NA的任何组合。有没有办法将NAs包含在组中？如果没有，除了大熊猫groupby，还有什么替代方案？我真的不想填写NAs，因为缺少某些内容是有用的信息。编辑:我注意到我的问题和上报道的问题完全一样，有没有什么技术可以解决这个问题？

浏览 1提问于2015-08-07得票数 0

1回答

在相同的pandas数据帧中对groupby应用softmax函数

、

我一直在寻求应用https://machinelearningmastery.com/softmax-activation-function-with-python/的以下softmax功能 from scipy.special import softmax # define data data = [1, 3, 2] # calculate softmax result = softmax(data) # report the probabilities print(result) [0.09003057 0.66524096 0.24472847] 我正在尝试将其应用于按组拆分的数据帧，

浏览 18提问于2021-10-07得票数 0

回答已采纳

1回答

计算Pandas Dataframe中多列的日平均值，然后插入一行

、、、、

我使用Pandas向数据帧输入了一个CSV文件，并希望计算其中列的日平均值。有两个列不会被平均化，时间和日期(日期是数据分组的日期)。然后，我希望在该日期的最后一行下面插入一行，在date列中插入“Average”( time列中没有任何内容)，然后在正确的列中插入相应的平均值。我只使用了Pandas一段时间，所以我不知道最简单的方法是什么。任何帮助都将不胜感激。

浏览 12提问于2022-06-17得票数 0

1回答

用GroupBy在多列上创建新的滚动均值列

、、

我有一个包含11列的dataframe，其中date是一个索引。我正在尝试创建一个具有列total滚动平均值的新列。但是，我得到了错误: TypeError:插入列与帧索引不兼容的索引 import pandas as pd df = pd.DataFrame({ 'date':['2016-04-01','2016-05-01','2016-07-01','2016-08-01','2016-09-01', '2019-04-01','2019-05-01

浏览 0提问于2020-01-21得票数 0

回答已采纳

2回答

如何获取随机A-Z字母数组？

、、

让我来解释一下我的意思:我有一个包含4列的数据库，其中一列是Letter，所以每一行都有一个从'A‘到'Z’的字符，这些字符不是唯一的，所以有多行带有'A'，多行带有'B‘等等。我想要做的是得到26 (a-z)行的所有字母，但随机具有相同字母的行。所以我想要26行从A到Z，只有一行A，一行B，并且这些字母的行是随机的。我希望你们能理解我的意思。提前感谢！我是这样想的： var randomQuestions = questions.Distinct().GroupBy(q => q.Letter).Take(26).ToArray(); 但我真

浏览 30提问于2017-07-08得票数 5

回答已采纳

2回答

在Python中读取特定Excel单元格数据

、、

我在pandas数据框中有一列，其中每一行都有一个带有多个换行符的字符串。我尝试只使用最后两个换行符来创建一个新列。单元格有不同数量的换行。有没有一个函数可以让我在excel中专门拉出最后两个换行符？下面是我失败的尝试。 text= df['Column_Name'].str.rsplit('\r\n', 3)

浏览 16提问于2019-12-25得票数 0

回答已采纳

3回答

如何从pandas groupby().sum()的输出创建新列？

、、、

正在尝试从groupby计算创建新列。在下面的代码中，我为每个日期获得了正确的计算值(请参阅下面的组)，但是当我尝试使用它创建一个新列(df['Data4'])时，我得到的是NaN。因此，我尝试在数据帧中创建一个新列，其中包含所有日期的Data3和，并将其应用于每个日期行。例如，2015-05-08在2行中(总数为50+5 = 55)，在这一新列中，我希望这两行都有55行。 import pandas as pd import numpy as np from pandas import DataFrame df = pd.DataFrame({ 'Date&

浏览 4提问于2015-05-15得票数 114

2回答

大熊猫群体标准

、、

我在和熊猫组做斗争，这件事可能很容易解决。例如： name number A 10 A 8 B 7 B 6 B 9 在这个数据集中，什么是最简单的向量化方法，用它我可以排除类别(列)“名称”中的所有行项，其中“数字”的最小值小于8。首先，B将被删除，因为至少有一个元素的值小于8。我相信groupby、apply或filter都有可能，但不记得是怎么做到的。

浏览 1提问于2017-09-24得票数 0

回答已采纳

2回答

如何在Pandas中使用double groupby并根据if条件进行过滤？

、、、

我有一个名为df的数据框架，在Pandas中看起来像这样： **id amt date seq** SB 450,000,000 2020-05-11 1 OM 430,000,000 2020-05-11 1 SB 450,000,000 2020-05-12 1 OM 450,000,000 2020-05-12 1 OM 130,000,000 2020-05-12 2 我需要在amt中找到每天每个ID的值。问题是有一天会有多个循环，如"seq“所示。如果任何一

浏览 0提问于2020-10-22得票数 0

1回答

根据特定的月份值和另一列的条件筛选熊猫数据

、、、

我有一个有以下几个头的大数据 import pandas as pd f = pd.Dataframe(columns=['month', 'Family_id', 'house_value']) 月份从0到239个，Family_ids高达10900，房屋价值也不同。所以dataframe有超过250万条线路。我只想为那些最终房价和每个家庭的初始房价之间存在差异的家庭过滤数据。一些示例数据如下所示： f = pd.DataFrame({'month': [0, 0, 0, 0, 0, 1, 1, 239, 239],

浏览 3提问于2017-10-06得票数 1

回答已采纳

2回答

如何将Pandas ` `GROUPBY`‘函数的结果转换为原始数据帧

、、

假设我有一个包含6列的Pandas DataFrame和一个自定义函数，该函数对2或3列中的元素进行计数并生成布尔输出。当从原始数据帧创建groupby对象并应用自定义函数df.groupby('col1').apply(myfunc)时，结果是一个长度等于col1类别数量的序列。如何扩展此输出以匹配原始数据帧的长度？我尝试过transform，但无法对其使用自定义函数myfunc。编辑：下面是一个示例代码： A = pd.DataFrame({'X':['a','b','c','a','

浏览 5提问于2018-11-16得票数 1

2回答

使用Pandas对使用特定列权重的DataFrame进行采样

、、、

我有一个DataFrame，它看起来像： index name city 0 Yam Hadera 1 Meow Hadera 2 Don Hadera 3 Jazz Hadera 4 Bond Tel Aviv 5 James Tel Aviv 我希望Pandas使用city列中的出现次数(类似于使用：df.city.value_counts())随机选择值，因此我的魔术函数的结果如下： df.magic_sample(3, weight_column='city&

浏览 33提问于2017-01-08得票数 6

回答已采纳

2回答

如何在多把钥匙上使用熊猫石斑鱼？

、

我需要通过datetime列和另一个str(object)列来转换一个dataframe，以便按组应用函数，并将结果分配给组的每个行成员。我理解，但不能同时为这两个条件创建一个pandas.Grouper。因此：如何在多列上使用pandas.Grouper？

浏览 6提问于2018-09-05得票数 16

回答已采纳

3回答

熊猫群是创建数据的副本，还是仅仅创建一个视图？

、

pandas.DataFrame.groupby是创建数据的副本还是只创建视图？在(更可能的)不创建副本的情况下，额外的内存开销是多少，以及它如何与原始数据特征(例如行数、列数、不同组数)进行扩展？

浏览 0提问于2018-10-09得票数 15

回答已采纳

1回答

Pandas dataframe:按唯一标识符分组，检查条件，如果满足/不满足条件，则将1/0应用于新列

、、

我有一个关于客户流失的大型数据集，其中每个客户都有一个唯一的标识符(编码键)。数据集是一个时间序列，每个客户每个月都有一行，因此date和customer-identifier列自然都包含重复项。我正在尝试做的是添加一个新的列(称为'churn')，并根据它是否是该特定客户作为客户的最后一个月将该列设置为0或1。我已经尝试了许多方法来做到这一点，但每一个都失败了，要么是回溯，要么就是不能像预期的那样工作。应该注意的是，我对python和pandas都是新手，所以请解释一下像我五岁(笑)这样的东西。我尝试使用pandas groupby根据唯一的客户键对行进行分组，然后检查条

浏览 5提问于2021-06-18得票数 1

1回答

Pandas聚合错误:在尝试计算模式时“没有找到匹配的签名”

、、、、

我有一个熊猫数据列表，我想对所有的熊猫执行一个模式操作。所有数据文件都有相同的布局： date是dt.date对象，感情是整数(-1、0或1)。我想得到一个数据组的日期，情感是原始的模式(或一个模式的列表，如果有更多)。我用它来聚合： df = df.groupby('date').agg(pd.Series.mode) 它可以很好地处理几乎所有的数据文件，其中只有一个返回一个错误： File "..\lib\site-packages\pandas\core\apply.py", line 420, in agg_list_like rais

浏览 15提问于2022-11-04得票数 0

回答已采纳

2回答

制定第一个和最后一个事件

、、、、

我正在处理一些日期时间的事件数据。每个事件gsm_id列都有一个ID。对于每个事件，都有一个开始日期和时间匹配时间列。将发生多个事件，并由列事件时列表示。还有一个记录PreviousEventTimecolumn.的列如何创建一个新列来记录以下内容: 1)每个“PreviousEventTime gsm_ID matchdatetime列和matchdatetime列都是相同的”gsm_id的第一个事件，其中"eventdatetime“是最新的。 gsm_id eventdatetime matchdatetime PreviousEventTime 246

浏览 0提问于2018-05-14得票数 1

回答已采纳

1回答

熊猫:如何规范一个接一个的专栏？

、、、、

我有一个带有几列的dataFrameGroupBy对象，其中的一个列是'price‘。由于每一组都有不同的价格范围，我想分别规范每一组。在之后，我尝试了： grouped['priceNormed'] = grouped['price'].transform(lambda x: (x-x.mean()) / x.std()) 但是我得到了一个错误TypeError: 'DataFrameGroupBy' object does not support item assignment 不同的是(我认为)我是按一列分组，但想使另一列正常化

浏览 38提问于2022-10-14得票数 0

回答已采纳

1回答

更新:如何比较pandas数据帧中连续3行的值？

、

我正在寻找一个解决方案，将比较3个连续的数据行和更新列的值，如果条件为真。 import pandas as pd aapl = pd.read_csv(....) aapl['3lows'] = False aapl.head(10) 输出是表，其中每一行都有列，其中 Row number/ Date / Open / High / Low / Close / Adj Close / Volume / 3lows 0 / 2006-01-03 / 10.340000 / 10.678572 / 10.321428 / 10.678572 / 9.572629 / 201808

浏览 0提问于2018-02-20得票数 0

1回答

如何提高迭代的性能

、

我有一个巨大的数据集，我需要计算每一行的重复项的数量。例如:在特定行中，我有客户X。我需要创建一个新列，该列将显示客户X在数据集中注册的次数。我做了一个关于这方面的代码，但性能非常差。我将花费大约3天的时间，直到数据集完成。有人能帮助提高这个计算的性能吗？下面是我的想法的一个例子： #importing resources import sys import pandas as pd from __future__ import print_function #creating a dataset as example: df1= pd.DataFrame({'Customer

浏览 12提问于2020-07-29得票数 1

3回答

熊猫群应用函数与一系列函数

、、、、

我有这样的数据集(示例用途) df = pd.DataFrame({ 'Store' : [100, 100, 100, 100, 101, 101, 101, 101], 'Product' : [5, 3, 10, 1, 3, 11, 2, 5], 'Category' : ['A', 'B', 'C', 'A', 'B', 'A', 'C', 'A'], 'Sales'

浏览 1提问于2021-03-23得票数 1

回答已采纳

2回答

使用python获取列表中单词字符串中的单词计数

、、、

从pandas数据框开始，其中第一列由注释字符串组成，其他列是单个单词的特征。对于每一行，我希望获得每个单词在该行的注释单元格中出现的次数的计数。我有一个名为"wordList“的单词列表(特征列)，我正在尝试这样的东西，但在运行时遇到了问题，计数又回到了数据框中： def word_count(comments): for word in wordList: return comment.count(word) df.comments.apply(word_count) 我所拥有的： comments | hello | this |

浏览 11提问于2021-02-19得票数 2

回答已采纳