在具有重叠名称和一些匹配ids的循环中合并df，以对每个循环进行分组

在处理数据时，合并具有重叠名称和一些匹配ID的数据框（DataFrame）是一个常见的需求。这通常涉及到数据清洗和预处理步骤，以确保数据的准确性和一致性。以下是解决这个问题的基础概念、方法、应用场景以及可能遇到的问题和解决方案。

基础概念

数据框（DataFrame）是数据分析中常用的数据结构，通常用于存储表格数据。在Python中，Pandas库提供了强大的DataFrame操作功能。

方法

合并数据框通常使用Pandas的merge()函数。这个函数可以根据一个或多个键（通常是列名）将两个数据框的行连接起来。

应用场景

这种操作在多个数据源需要整合时非常有用，例如：

合并客户信息表和订单信息表。
合并不同时间点的数据集以进行趋势分析。
合并来自不同实验的数据以进行综合分析。

示例代码

假设我们有两个数据框df1和df2，它们都有一个共同的列id和一些重叠的列name。

import pandas as pd

# 示例数据框df1
data1 = {'id': [1, 2, 3, 4], 'name': ['Alice', 'Bob', 'Charlie', 'David']}
df1 = pd.DataFrame(data1)

# 示例数据框df2
data2 = {'id': [3, 4, 5, 6], 'name': ['Charlie', 'David', 'Eve', 'Frank']}
df2 = pd.DataFrame(data2)

# 使用merge()函数合并数据框
merged_df = pd.merge(df1, df2, on='id', how='outer', suffixes=('_left', '_right'))

print(merged_df)

可能遇到的问题及解决方案

键不匹配：如果两个数据框中的键不完全匹配，可以使用how='outer'参数来执行外连接，保留所有数据。
列名冲突：如果两个数据框中有相同的列名，可以使用suffixes参数来区分它们。
数据重复：合并后可能会出现重复的行，可以使用drop_duplicates()方法来去除重复行。

# 去除重复行
merged_df = merged_df.drop_duplicates()

参考链接

Pandas Documentation - Merge

通过上述方法，你可以有效地合并具有重叠名称和一些匹配ID的数据框，确保数据的完整性和准确性。

页面内容是否对你有帮助？

有帮助

没帮助

使用来自另一个数据的值填充一个数据

、

我有这个Dataframe，它是空值，没有正确填充。 Unidad Precio Combustible Año_del_vehiculo Caballos \ 49 1 1000 Gasolina 1998.0 50.0 63 1 800 Gasolina 1998.0 50.0 88 1 600 Gasolina 1999.0 54.0 107

浏览 1提问于2022-12-01得票数 0

1回答

熊猫识色

、、

我正在做一个程序，将读取一个excel文件，其中将包括名称和颜色(美国人的颜色)，它需要读取文件，并检查名称是否如您输入的那样，并检查C栏的颜色是否为绿色，黄色或红色，并添加一个分数。我知道这是可能的，但我对熊猫了解不多，需要一些帮助，也无法从视频和其他网站上找到太多帮助。希望你能帮我。谢谢。

浏览 0提问于2020-11-13得票数 0

1回答

我在pandas中有一个多索引数据帧，其中index是ID和时间戳。我希望能够计算每个ID的时间序列滚动和，但我似乎不知道如何在没有循环的情况下做到这一点。 content = io.BytesIO("""\ IDs timestamp value 0 2010-10-30 1 0 2010-11-30 2 0 2011-11-30 3 1 2000-01-01 300 1 2007-01-01 33 1 2010-01-01 400 2

浏览 0提问于2013-10-05得票数 10

回答已采纳

2回答

右列自动匹配

、

在R中，具有以下两个数据格式： df1 <- structure(list(id = 1:8, value = c(100L, 100L, 100L, 100L, 100L, 100L, 100L, 100L)), class = "data.frame", row.names = c(NA, -8L)) df2 <- structure(list(randomColumnName = c(100L, 2L, 3L, 40L, 5L, 6L, 73L, 8L), OtherRandomColumn = structure(c(1L, 1L, 1L, 1L,

浏览 4提问于2019-09-23得票数 0

回答已采纳

3回答

Python:在for循环中追加列表意外结果

、、、

我正在尝试从一个列表('provider')创建一个新变量，该列表检查某些if是否出现在数据框的另一列中： import pandas as pd xx = {'provider_id': [1, 2, 30, 8, 8, 7, 9]} xx = pd.DataFrame(data=xx) ids = [8,9,30] names = ["netflix", "prime","sky"] for id_,name in zip(ids,names): provider = [] if id_

浏览 0提问于2020-03-22得票数 1

1回答

在R中的两个数据集中只保留观察重叠的id？

、

我有两个数据集。假设数据A和数据B以及两个数据集具有id变量。在两个数据集中，我想删除不重叠的I。换句话说，我希望保留存在于两个数据集中的I。

浏览 4提问于2015-04-15得票数 0

2回答

什么是最好的方法来查找一个清单的整数在一个清单的范围内的整数在火星雨。

、、

我有如下所示的范围清单：我有如下所示的值列表：现在，我需要做的是，对于“值列表”中的每个值，我需要在“Range列表”中获取行的索引，这样“Range”列表中的值介于该行的"From“和" to”之间。假设：两个列表都是数据格式(我更希望做的是火花放电) Inclusive"List 中可能有重叠，在这种情况下，返回所有可能的范围索引，从值和值到值都可以有超过1亿行长度的“值列表”将始终小于“range列表”。(尽管我的照片没有显示出来) 用例子来解释上面的内容， “值列表”中的第一项是' 17 '，它下降到的范围将在“范围列

浏览 5提问于2019-12-11得票数 0

回答已采纳

1回答

如何知道AWS中ELB下节点的ip地址

、、、、

我在VPN中运行我的应用程序，它有超过4个节点的公共电子束，我想知道所有节点的ipAddress。

浏览 3提问于2017-01-02得票数 1

回答已采纳

1回答

合并面并对它们的值求和

、

我有一个包含许多重叠多边形的数据帧，我想将它们组合成一个形状，其值等于每个独立多边形的值的总和。下面是一些示例数据： df <- data.frame(x = c(0.5, 1.5, 4.5, 5.5), y = c(1, 1, 1, 1), id = c('a', 'b', 'c', 'd'), score = c(1, 3, 2, 4)) s_df <- SpatialPointsDataFrame(df[, c('x', 'y&#

浏览 16提问于2021-02-06得票数 0

回答已采纳

3回答

如何循环分组Pandas的数据？

、、、、

DataFrame： c_os_family_ss c_os_major_is l_customer_id_i 0 Windows 7 90418 1 Windows 7 90418 2 Windows 7 90418 代码： print df for name, group in df.groupby('l_customer_id_i').agg(lambda x: ','.join(

浏览 8提问于2014-12-10得票数 254

回答已采纳

1回答

与另一个案例R日期重叠的案例的筛选表

、、

我有这样的数据： Sample 1 04/01/18 01/02/18 Sample 2 01/01/18 05/01/18 Sample 4 01/01/16 01/02/16 我想要的输出只包含样本1和样本2，因为它们在时间上是重叠的。我想不出一个办法来做这件事？

浏览 14提问于2018-01-13得票数 0

1回答

如何使用PHP格式化从两个表中获得的数据？

、、

我想从两个表中获取数据。我在一个表中有患者姓名和ID，在另一个表中有预约时间。 Table1: Name Id Joe Wang 1234 Jack Steward 5555 Table2: Id Month Date 1234 Jan 15 1234 Jan 18 1234 Feb 5 1234 Mar 1 1234 Mar 3 5555 Jan 3 5555 Apr 4 5555 Apr 12 ..。我得到了数据： $stmt = $mysqli->prepare("SELECT Name,

浏览 1提问于2013-04-08得票数 0

2回答

无法参加熊猫的数据访问

、、、、

我有两个df。第一个df是一个多指标，另一个是典型的单指标。图1:多索引df 和图2:单一索引加入这两个df后，我得到以下错误没有重叠索引名的不能连接我怀疑这个错误是由于第一个df中的索引列名称造成的(图1)。甚至，交换索引名和典型的数字值也没有帮助。图2:多索引df 我可以知道如何解决这个错误吗？谢谢你花了这么多时间

浏览 4提问于2019-10-04得票数 3

回答已采纳

1回答

字典的匹配键与数据帧的索引问题

、、

我有一个像这样组织的testing_df： # Use the arrays to create a dataframe testing_df =pd.DataFrame(test_array,columns=['transaction_id','product_id']) # Split the product_id's for the testing data testing_df.set_index(['transaction_id'],inplace=True) print(testing_df.head(n=5)) transa

浏览 2提问于2017-11-30得票数 2

回答已采纳

1回答

将多个csv文件合并成Python中的一个csv文件

、、、

我试图合并一些csv文件在一起。它们都有几个共同的栏，它们是： CU_NUMBER CYCLE_DATE JOIN_NUMBER CU_NAME PhysicalAddressLine1 PhysicalAddressCity PhysicalAddressStateCode 这些列的右边将是所有csv文件中感兴趣的各种列。现在，其中一些csv文件将有不同的专栏感兴趣，我仍然想合并。另外，有些文件可能没有相同的CU_NUMBER、CU_NAME、PhysicalAddressLine1、PhysicalAddressCity、PhysicalAddressStateCode。下面

浏览 3提问于2020-05-15得票数 0

回答已采纳

1回答

熊猫和GeoPandas索引与切片

、、

我正在使用GeoPandas和Pandas。比如说，我有一个300,000行Dataframe，df，它有4列+索引列。 id lat lon geometry 0 2009 40.711174 -73.99682 0 1 536 40.741444 -73.97536 0 2 228 40.754601 -73.97187 0 然而，唯一的ids只有少数(~200) 我想为每个组合(lat，lon)生成一个shapely.geometry.point.Point对象，类似于这里显

浏览 0提问于2015-06-07得票数 2

回答已采纳

1回答

update_post_meta不处理数组数据(不确定我遗漏了什么)

、、、

事先感谢所有花时间回应的人和每一个人。这里是我试图实现的目标：本质上，我试图创建一个插件，只需从插件管理页面编辑页面上的所有元描述。我是这样做的，使用以下逻辑-打印所有的metas从数据库在一个页面上。AJAX使用jQuery从上述页面获取所有页面ids和值。在提交时-将所有更新的值推送到数据库中各自的位置，并更新这些元描述。我不确定我是否在概念层面上有错误的代码，或者我是否缺少一些基本的东西，但下面是我编写的代码。我试着阅读和测试我所能做的一切，但都没有用。任何开悟都会得到极大的认可。请注意-我的回调函数有三个foreach循环-没有工作，但我离开了它们，以便您可以看到一些事情，我已经

浏览 0提问于2019-07-24得票数 0

1回答

Pandas :合并在循环中不起作用，但在每个表上单独工作？

、、

我不得不将我正在处理的桌子切成碎片，因为它对熊猫来说太重了，我正在使用字典对每一块进行循环处理。它一直运行得很好，直到我不得不在每一块上应用合并，对左边使用相同的DataFrame： for piece, df in d.iteritems(): df = pd.merge(df,table_left, on='column', how='inner') 它不会引发任何错误，但是我的左表中的列没有被添加。奇怪的是，当我在我的一个表上使用相同的代码时，在循环之外，它工作得很好…你们知道我错过了什么吗？

浏览 4提问于2016-09-03得票数 0

回答已采纳

1回答

如何对列表中的每个子项应用不同的css页边距

、、、

我有以下代码： function computeSetImgMargins(iD) { var ids = iD; var totalWidth = 0 var totalHeight = 0; ids.children().each(function(index){ var imgWidth = ids.children().width(); var imgHeight = ids.children().height(); totalWidth += imgWidth; totalHeight += imgHeight; var le

浏览 0提问于2011-05-15得票数 0

回答已采纳

1回答

比较用于重叠的IP范围和子网阵列

、

好的，我有两个数组我想做的是在array1 (IP范围)中查找第一个循环中的重叠，查找array2 (IP子网)中的重叠，然后查看范围和子网之间是否存在重叠。这里提出的问题是，为什么当我运行这个程序时，它会报告所有的重叠，例如192-168.0.1 - 192.168.0.10 (IP范围) 192.168.0.7 - 192.168.0.8 (IP范围)相互重叠。但是，10.152.0.100 - 10.152.0.110 (IP范围)与任何内容没有重叠，因此应该报告没有重叠。 $wmi返回的示例数据如下： 192-168.0.1 - 192.168.0.10 (

浏览 1提问于2014-01-03得票数 0

1回答

如何在symfony2中创建一个Twig嵌套循环？

、

我正在使用symfony 2，我用Twig编写了以下代码 {% for entity in entities1 %} {{ entity.id }} {% for ul in userlike %} {% if entity.id == ul.images_id %} {{ ul.username }} {% endif %} {% endfor %} {% endfor %} 内部循环

浏览 5提问于2014-07-02得票数 0

5回答

将列表中的ID添加到“熊猫数据”的新列中

、、、

假设我有以下数据(整数列和带有整数列表的列). ID Found_IDs 0 12345 [15443, 15533, 3433] 1 15533 [2234, 16608, 12002, 7654] 2 6789 [43322, 876544, 36789] 还有一个单独的身份证清单..。 bad_ids = [15533, 876544, 36789, 11111] 考虑到这一点，并且忽略了df['ID']列和任何索引，我想看看bad_ids列表中的任何in是否在df['Found_I

浏览 1提问于2020-04-02得票数 12

回答已采纳

2回答

带有多个表的Sphinxsearch sql_query

、、

我正在尝试设置Sphinxsearch，使其能够完全索引我的MySQL表。如果我是对的，那么索引的所有内容都必须由sql_query抓取。每个查询都可以使用，但我对如何将其应用于以下表感到困惑。 CREATE TABLE books ( book_id INT(10) PRIMARY KEY AUTO_INCREMENT, title VARCHAR(200), abstract TEXT ); CREATE TABLE authors ( author_id INT(10) PRIMARY KEY AUTO_INCREMENT, name VARC

浏览 0提问于2012-10-18得票数 1

回答已采纳

2回答

C查找所有出现的子字符串。

是否有一种有效的方法来查找char *str1中的所有非const char *str2的出现(包括重叠)，并输出C中str1中匹配的数字位置(而不是C++中的位置)？

浏览 1提问于2012-11-20得票数 1

1回答

pandas数据帧中的函数，用于复制R中的dplyr group_by(多变量)函数

、、、

考虑一下这种情况：在dplyr中： df = df%>% group_by(a,b) %>% 表示数据帧首先按列a分组，然后按b分组。在我的例子中，我尝试先按group_name列、然后按user_name、再按type_of_work对数据进行分组。有三列以上(这就是我感到困惑的原因)，但我需要根据这三个标题以相同的顺序对数据进行分组。在这个阶段之后，我已经有了一个处理列的算法。我只需要一个算法来创建一个根据这三列分组的数据帧。在我的例子中，像dplyr函数一样保留序列是很重要的。我们在pandas data-frame中有类似的东西吗？

浏览 0提问于2017-06-19得票数 1

1回答

如何识别工作日取决于输入日期

我有一个简单的问题，但我想知道如何做:我有一个数据库和两个输入数据(dmda和DTest)： df1 <- structure( list(date = c("2021-06-23","2021-06-24","2021-06-30","2021-07-01"), DTT= c("Hol","Hol","Hol",0), Week= c("Wednesday","Thursday","Wednesday&#

浏览 4提问于2021-12-21得票数 1

回答已采纳

1回答

我可以使用df1中的一个列和df2中的一个单元格中的一个值连接两个数据帧吗？

、、

我正在处理一些地理空间数据，df_geo，我有一个CSV值，我想加入到位置数据框架，称为df_data。但是，我的问题是，在我想要加入两个数据帧(区域名称)的列中，有多种方法来拼写值。看看下面df_geo中的加泰罗尼亚示例:根据语言的不同，6有不同的拼写区域名称的方法。我的问题是:如果行在df_data中被命名为"Catalonia“，我将如何加入df_data到df_geo

浏览 1提问于2018-09-21得票数 0

回答已采纳

1回答

如何将方程应用于Pandas dataframe ByGroup

、

每天的这段时间，我都在用头撞键盘太久了，如果您能给我一些建议，我将不胜感激。我的总体目标是摄取一个每小时温度的数据文件，其中有间隙。我想用来自附近站点的温度进行线性回归来填补这些空白。但我想按年和按月完成这项工作。因此，在这里的人们的帮助下，我已经能够做到这一点。现在我已经应用了一个按年和月的线性回归函数，如下所示 Corr_grouped=DF_grouped.apply(lambda x: stats.linregress(x [Labels[0]], x [Labels[3]])) 这样就产生了如下输出: slope、intercept、r_value、p_value、std_err，并

浏览 1提问于2013-02-12得票数 3

1回答

存储打印的id标签，并使用它作为数组编号php插入

、、

在下面的代码中，我试图获得生成的Div ID标签，并将其动态插入到底部#inline div中的数组编号中。有可能吗？ <?php if ($top_fundraisers && is_array($top_fundraisers)): ?> <?php foreach ($top_fundraisers as $index => $fundraiser): ?> <a href="#inline1" class="fancybox"> &l

浏览 0提问于2012-09-28得票数 0

回答已采纳

1回答

合并/映射Dataframe中的行

、、、

我有一个pandas的停车场名称和引用计数的数据框架，例如， Lot_Name Citations2019 Brook St Lot Pass A 50 Brook St Lot Pass B 46 Brook St Lot Pass C 76 Campbell 101 Davidson Pass A 23 Davidson Pass B

浏览 13提问于2020-10-20得票数 0

回答已采纳

1回答

在PysPark中合并重叠间隔

、、、

我有这样一个DataFrame (但要大得多)： id start end 0 10 20 1 11 13 2 14 18 3 22 30 4 25 27 5 28 31 我试图在PySpark中有效地合并重叠间隔，同时保存在新列‘in’中，其中的间隔被合并了，这样看起来如下所示： start end ids 10 20 [0,1,2] 22 31 [3,4,5] 可视化：发自：至：我可以在不使用udf的情况下这样

浏览 5提问于2021-11-24得票数 2

回答已采纳

1回答

根据ID和日期合并数据集

、

我有两个数据集，每个月总结不同的家庭变量。我想根据家庭的身份和月份将两者合并。 df1 one看起来如下： hh_ids date total <chr> <chr> <dbl> 1 KELDK13 2013-8-1 1 2 KMOMB02 2013-2-1 1 3 KMOMB02 2013-5-1 2 4 KMOMB04 2013-7-1 2 5 KMOMB04 2013-9-1 1 6 KMOMB06 2013-6-1 1 7 KMOMB14

浏览 2提问于2016-08-04得票数 1

回答已采纳

1回答

我需要获得未定义深度的数组的值。

、、

我有一个数组，它的子数组可以无限期地拥有更多的子级等等。我要知道所有父母和孩子的身份。我试着用一个调用自己的函数遍历数组，但是它没有工作。我试过：(前面提到的初始树是数组) public function recursiveTree($tree,$data = NULL){ $data[] = $tree['id']; if($tree['children']){ foreach ($tree['children'] as $key => $treeChildMin){ return $this->

浏览 0提问于2018-12-05得票数 2

回答已采纳

3回答

将Id类型对象转换为整数

、、

我对python非常陌生，我正试图为大学做一个项目。数据模型是这样的， Dataframe结构图像我想为每个customer_id生成一个整数值，这个新值是新的customer_id，其中customer_id出现了几次，我希望将这个值转换为一个整数，这样每当Id出现时，它都会收到相同的整数值。到目前为止，我已经尝试过一些程序，但没有成功，其中之一是 data['customer_id'] = data['customer_id'].rank(method='dense', ascending=False).astype(int)

浏览 0提问于2021-11-29得票数 0

回答已采纳

1回答

如何在Python中模糊匹配两个列表

、、

我有两个列表：ref_list和inp_list。如何利用FuzzyWuzzy来匹配引用列表中的输入列表？ inp_list = pd.DataFrame(['ADAMS SEBASTIAN', 'HAIMBILI SEUN', 'MUTESI JOHN', 'SHEETEKELA MATT', 'MUTESI JOHN KUTALIKA', 'ADAMS SEBASTIAN HAUSIKU&#

浏览 34提问于2020-07-08得票数 1

1回答

基于列中值差异的熊猫数据分割方法

、、、

我有一只熊猫，上面有几个栏，一个叫做“罢工”。如果罢工列的一行的值大于100加上罢工列的前一行，我希望在这一点上将dataframe拆分为两个(它们的列名仍然相同)，依此类推。我对熊猫很陌生，在查找了一些功能之后，我想不出一个简单的方法来完成这个任务。一个示例:以下数据文件： strike crv vol 1400 w a 1450 x b 1600 y c 1800 z d 结果将是3个数据文件： strike crv vol 1400 w a 1450 x b strike crv vol 1600 y c strike c

浏览 1提问于2015-07-21得票数 3

回答已采纳

1回答

用带有officedown包的tab.id生成循环中的表

、、

是否有一种方法可以在循环中生成表并设置可以稍后交叉引用的tab.id？在循环中生成表很简单，但我不知道以后如何设置ids和标题。请看下面的代码。这里我迭代一个R data.frames的列表。在最后一个块中，我将In向量(长度为2)放入块选项-- tab.id和tab.cap。这将生成两个表(很好)，但是如何在块中获取当前处理的data.frame的id？ --- output: officedown::rdocx_document --- ```{r setup, include=FALSE} Knitr：：opts_chunk$set(回声=假) ```{r} 图书馆(可弯曲) 外勤

浏览 8提问于2022-04-19得票数 0

回答已采纳

1回答

熊猫:加入失败的行列

、

我有两个DataFrames，df1： ID value 1 0 5 162 1 7 185 2 11 156 和df2： ID Comment 1 5 2 7 Yes! 6 11 ..。我想使用ID加入，结果如下所示： ID value 1 Comment 5 162 7 185 Yes! 11 156 真正的DataFrames要大得多，包含更多的列，我基本上希望将Comme

浏览 0提问于2014-04-09得票数 1

回答已采纳

2回答

基于相同公司名称的标准化客户ids

我需要使用众多客户it中的一个，并将其标准化到所有extact相同的公司名称上。在此之前 Customer.Ids Company Location 1211 Lightz New York 1325 Comput.Inc Seattle 1756 Lightz California 之后 Customer.Ids Company Location 1211

浏览 0提问于2018-10-23得票数 1

1回答

两个Shapefiles的相交区域- Python

、

我在python中有两个shapefile，我想找出它们重叠的所有空间的面积。我可以从geopandas中使用sjoin来获得它们连接的区域，但对于有多个重叠的位置，我希望只保留面积最大的一个。 municipality = gpd.read_file(muni_file) soil_type = gpp.read_file(soil) combined = gpd.sjoin(municipality,soil_type,how="left",op="intersects") 使用OGR，我可以获得多边形的面积，如下所示 from osgeo import

浏览 0提问于2017-06-01得票数 0

3回答

清除r中的数据集-将值添加到NA单元格

我有一个数据帧(见下文)，当我试图清理它时，我遇到了一些问题。行数据集如下所示： df <- data.frame( id = c(1, 1, 1, 2, 2), company_name = c("aaa", NA, NA, "ccc", NA), directors = c(NA, "xxx", "bbb", NA, "ooo"), year = c(2001, 2001, 2001, 2002, 2002) ) > df id company_name di

浏览 1提问于2021-09-02得票数 0

3回答

使用熊猫，如何在两列中过滤具有相似值的行

、

我有一张很大的数据(大约一千万行)。每一行都有：类别起动位置末端位置如果两行位于相同的类别中，并且开始和结束位置与+-5公差重叠，我希望只保留其中的一行。例如 1, cat1, 10, 20 2, cat1, 12, 21 3, cat2, 10, 25 我想过滤掉1或2。我现在做的不是很有效率， import pandas as pd df = pd.read_csv('data.csv', sep='\t', header=None) dfs = [] for seq in df.category.unique(): d

浏览 0提问于2019-04-01得票数 1

3回答

Python: Pandas嵌套循环需要很长时间才能完成。如何提高速度？

、、、

我正在自学Python和Pandas来支持我的日常工作。通过大量的试验和错误，我构建了下面的函数。此函数以参数(i)引用为'dataset‘的数据帧、(ii)国家名称列表和(iii)唯一法律实体ID列表为参数。(该函数起作用。) 该数据集是一个包含300,000+行和大约30列的大型数据框架--它是一个总分类账的转储。关键列是"LE_ID“和" country "，它们分别包含(i)相关法律实体的唯一ID和(ii)该法律实体的国家名称。并不是所有的行都是唯一的，大约有5000个LE_IDs填充300,000+行。我想要将这个数据集“分割”成XLS文件，每个国家

浏览 40提问于2021-05-27得票数 0

1回答

计算pandas数据帧中的重叠时间帧，按人员分组

、、、、

我使用top解决方案来确定开始和结束时间与给定行重叠的行数。然而，我需要这些重叠是由组来确定的，而不是整个数据帧。我正在处理的数据有对话的开始和结束时间，以及相关人员的姓名： id start_time end_time name 1 2021-02-10 10:37:35 2021-02-10 12:16:22 Bob 2 2021-02-10 11:09:39 2021-02-10 13:06:25 Bob 3 2021-02-10 12:10:33 2021-02-10 17:06:26 Bo

浏览 8提问于2021-02-18得票数 0

回答已采纳

3回答

熊猫-从群中的最初n组中创建一个新的DataFrame。

、、

具有以下DF： A B 0 1 11 1 2 22 2 2 22 3 3 33 4 3 33 我想以'A‘为群，然后先取n组，然后从它创建一个新的数据框架。我环顾四周，发现了 result = [g[1] for g in list(grouped)[:3]] 但是该解决方案返回一个列表，而不是一个DF，而且根据分组结果创建一个列表似乎是多余的。更新：预期输出是由前n组组成的新DF，例如，如果n=2输出为： A B 0 1 11 <-- first group 1 2 22 <-- second group 2 2 22

浏览 1提问于2021-03-07得票数 2

回答已采纳

1回答

如何从excel数据中提取特定行的数据到pysimplegui输入文件

、、

Pysimplegui:我在文本框中输入的数字应该传递给在excel文件中执行搜索的函数。搜索结果将出现在其他文本框中，请在下面的屏幕中找到代码和gui界面。输入图像描述here6Q84r.jpg import PySimpleGUI as sg import pandas as pd # Add some color to the window sg.theme('DarkTeal9') EXCEL_FILE = 'Data_Entry.xlsx' df = pd.read_excel(EXCEL_FILE

浏览 3提问于2022-01-15得票数 0

4回答

按id分组在php中不分组

、、、

我的php脚本在计算与某个调查问卷id匹配的id列条目时遇到了一些问题。结果似乎是非常反社会的，只是不想因为某种原因而聚集在一起…… $sql30 = <<<SQL SELECT id, COUNT(id) FROM `QuestionnaireAnswers` WHERE questionnaireID='$questionnaireID' GROUP BY id SQL; if(!$result30 = $db->query($sql30)){ die('There was a

浏览 0提问于2013-07-04得票数 0

回答已采纳

3回答

从数据帧中提取特定行

、

我有一个数据帧df1，它有两个列‘I’和‘name’- ids names fhj56 abc ty67s pqr yu34o xyz 我有另一个数据帧df2，其中一些列是- user values 1 ['fhj56','fg7uy8'] 2 ['glao0','rt56yu','re23u'] 3 ['fhj56','ty67s','hgjl09']

浏览 4提问于2017-08-07得票数 1

回答已采纳

5回答

从熊猫数据中删除“重叠”日期

、

我有一只熊猫的资料，看上去如下： ID date close 1 09/15/07 123.45 2 06/01/08 130.13 3 10/25/08 132.01 4 05/13/09 118.34 5 11/07/09 145.99 6 11/15/09 146.73 7 07/03/11 171.10 我想删除任何重叠的行。重叠行定义为另一行的X天内的任意行。例如，如果X= 365。结果应该是： ID date close 1 09/15/07 123.45 3 10/25/08 1

浏览 4提问于2017-08-10得票数 5

回答已采纳

4回答

如何从字典中提取元素并追加到列表中

我下面有一本字典： a = {'Developer': [{'id':1, 'name':'a', 'age':'11'}, {'id':2, 'name':'b', 'age':'33'}, {'id':3, 'name':'c', 'age':'34'}]} 预期产出一： [{'id':1, 'name':

浏览 2提问于2021-02-09得票数 0

回答已采纳