Pandas数据帧，将列与子字符串列表进行匹配，连续行，仅保留子字符串

Pandas数据帧是Python中常用的数据处理库，可以方便地进行数据分析和处理。针对将列与子字符串列表进行匹配，并只保留包含子字符串的连续行，可以采取以下步骤：

导入必要的库和模块：
导入必要的库和模块：
创建一个示例数据帧：
创建一个示例数据帧：
定义一个函数，用于匹配子字符串并保留符合条件的行：
定义一个函数，用于匹配子字符串并保留符合条件的行：
调用函数并传入数据帧、目标列和子字符串列表：
调用函数并传入数据帧、目标列和子字符串列表：
结果将只包含满足条件的行：
结果将只包含满足条件的行：

这里推荐使用腾讯云相关产品中的云服务器（CVM）进行云计算操作，可以在腾讯云官网（https://cloud.tencent.com/product/cvm）了解更多关于云服务器的详细信息。

如何使用Pandas/Python删除括号和所有数据？

、、、

我有一个数据帧，我想要删除其中的所有括号和内容。我查过了：其中删除数据的答案是 re.sub(r'$[^)]*$', '', filename) 我试过了 re.sub(r'$.*?$', '', filename) 然而，我得到了一个错误：expected a string or buffer 当我尝试使用列df['Column Name']时，我得到了no item named 'Column Name' 我使用df.head()检查了数据帧，当我使用re表达式删除( be....h

浏览 1提问于2014-01-03得票数 39

1回答

同时根据多个参数过滤数据帧

、、

假设我有一个数据框： df = pd.DataFrame({"a": range(1,5), "b": range(6, 10), "c": range(11, 15) , "d": range(15, 19)}) 我想根据组成坐标点的两列的值来过滤这个数据框。假设c，d分别是x和y坐标。但是，我想检查是否给定了数据框中的点列表，哪些点属于x坐标列表和y坐标列表的值。 x_coord = [4,12,13,17,19] y_coord = [16,18,25,29,32] 使用pandas的"isin“函数，我如何同时解

浏览 14提问于2019-02-26得票数 0

回答已采纳

1回答

根据一列的值从另一列复制值

、、

我尝试根据第四列中的值填充另两列中的一列中的值。我有一个包含四列的pandas数据帧: A、B、C、D df_copy = df.copy() for i, row in df.iterrows(): if 'Test' in row.D: df_copy.loc[i, 'A'] = row.B elif 'Other' in row.D: df_copy.loc[i, 'A'] = row.C 这是可行的，但速度非常慢。有没有更有效的方法？

浏览 2提问于2015-05-02得票数 2

回答已采纳

2回答

仅使用公共列的多个数据帧的pandas.concat

、、

我有多个pandas数据帧对象cost1，cost2，cost3 . 它们有不同的列名(列数)，但有一些共同之处。每个数据帧中的列数相当多，因此手动选择公共列将是痛苦的。如何将所有这些数据帧中的行附加到一个数据帧中，同时只保留公共列名中的元素？到现在为止 frames=[cost1,cost2,cost3] new_combined = pd.concat(frames, ignore_index=True) 这显然包含并非在所有数据帧中常见的列。

浏览 5提问于2016-10-04得票数 17

回答已采纳

2回答

在列表中检查panda dataframe列的匹配项

、、

我有一个包含两列的pandas dataframe，一个文件id号和一个来自该文件的关键字列表。我本质上希望能够遍历每一行，看看所选的关键字是否在文件关键字列表中，以及它是否打印出文件id。或者我可以创建一个包含所有正匹配的新数据帧，并从那里打印文件id。经过研究后，我想使用df.loc[df['key words'] == key_word, :]，这将给我一个新的数据帧，所有积极的匹配。这样做的问题是没有肯定的匹配，因为我忘记了我的“关键字”列在每一行都有一个关键字列表。有人能帮我找到解决方案吗？非常感谢编辑:我无法提供我的表的片段，因为数据是敏感的，但这是它的一般概念：

浏览 4提问于2020-06-05得票数 0

1回答

如何使用正则表达式删除python pandas DataFrame中的行？

、、

我有一个模式： patternDel = "( \$(MoM|QoQ)\$)"; 我想删除pandas dataframe中列df['Event Name']与此模式匹配的所有行。哪种方法是最好的？数据帧中有超过100k行。

浏览 8提问于2016-10-10得票数 26

回答已采纳

1回答

是否确保df.corr()列的顺序

、、、

在Pandas中，我们可以用生成一个相关矩阵。我的问题很简单:原始数据帧的列顺序是否保持不变？从我的测试来看，似乎是这样的，但我想确定一下。我之所以问这个问题，是因为我使用的是Python 3.7.3，其中字典维护插入顺序。我不知道当前的问题是否与此相关，但如果熊猫在幕后使用字典，那么很可能是corr()在Python 3.6+中按预期排序，而不是在较低版本中。

浏览 24提问于2019-07-27得票数 2

回答已采纳

1回答

如何将时间列(包含小时和分钟)从数据类型"object“转换为时间/日期类型？

、、

这里是初学者，目前我正在准备数据来创建神经网络。因此，我有一个包含多个列的Pandas数据帧。其中一列以15分钟步长显示一天中的时间(00:00，00:15，00:30，…，23:45，00:00，00:15，…)此列的数据类型为object。如何将其转换为与时间相关的数据类型？我尝试过这样做，但它将(错误的)年-月-日信息添加到列中 Erzeugung["uhrzeit"] = pd.to_datetime(Erzeugung["uhrzeit"]) (2019-07-22 00:00:00, 2019-07-22 00:15:00, …)

浏览 0提问于2019-07-22得票数 0

2回答

替换Python DataFrame列中的字符

、、、

下面显示的简单数据帧replace不起作用。 NewPhone列包含与原始列相同的值。 import pandas as pd SF = pd.read_csv(r"xxx.csv") SF['NewPhone'] = SF['Phone'].replace("(",'xxx') print(SF['NewPhone'])

浏览 0提问于2018-05-23得票数 4

1回答

在一列中将行与所有其他前一个字符串进行比较，并在Python中更改另一列的值。

、、

我有一个名为namelist.csv的csv文件，它包括： Index String Size Name 1 AAA123000DDD 10 One 2 AAA123DDDQQQ 20 One 3 AAA123000DDD 25 One 4 AAA123D 20 One 5 ABA 15 One

浏览 0提问于2019-04-19得票数 0

回答已采纳

1回答

缩短字符串中的重复序列

、、

我用VB.NET建立了一个博客平台，那里的读者非常年轻，出于某种原因，我喜欢在他们的评论中重复字符序列来表达他们的承诺。示例： Hi!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!！<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3<3 ..and等等。我不想完全过滤掉它，但是，我想将它缩短到一行中最多5个重复的字符或序列。我

浏览 1提问于2010-06-30得票数 0

回答已采纳

2回答

如何从pyspark dataframe列中的列表中删除特定的字符串

、

我有下面的python列表。 lst=['name','age','country‘ 火花数据帧在下面。 column_a name Xxxx, age 23, country aaaa name yyyy, age 25, country bbbb 我必须将列表与列进行比较，并从该列中删除列表中的值。预期产出如下： column_a Xxxx, 23, aaaa yyyy, 25, bbbb

浏览 4提问于2021-12-29得票数 1

回答已采纳

5回答

如何使用正则表达式从dataframe中选择列

、、

我在python pandas中有一个数据帧。数据帧的结构如下： a b c d1 d2 d3 10 14 12 44 45 78 我想选择以d开头的列。在python中有没有简单的方法来实现这一点。

浏览 136提问于2015-06-13得票数 91

回答已采纳

1回答

按变量创建特定日期列表

、

我正在寻找一种解决方案，以创建一个基于现有的数据帧与日期索引，一个特定的日期列表。这些日期基于变量"month“和"date_d”以及现有数据帧的开始和结束。 import pandas as pd df_date = pd.date_range(start="2018-07-01",end="2020-02-02") month = 6 date_d = 15 #expected_output_list = ['2018-12-15', '2019-06-15', '2019-12-15'

浏览 24提问于2021-07-06得票数 0

回答已采纳

2回答

Python:将列表写入Pandas中的列

、、、

我有两个列表，这两个列表都包含要写入csv文件的值。所以我做的第一件事就是将我的csv文件导入到pandas数据帧中。然后，我想写两个新列，并将这两个列表添加到新列中。我的代码如下。请注意，原始csv文件已经存在一些列。 import pandas as pd df = pd.read_csv('1.csv') ## 1.csv is the csv file I want to import. a = [0.001, 5, 38, 70, 101, 140, 190] b= [35, 65, 100, 160, 170, 200] df['Start

浏览 59提问于2017-06-27得票数 3

回答已采纳

2回答

字典列表和字典中的字典

、

我想从字典列表中创建一个干净的pandas数据帧，其中字典中的键的值也可以是字典列表。以下是我的初始列表： [ {'product_id':1, 'categories': [{'toy_id':'x1', 'sales':50}, {'toy_id':'x2', 'sales':50}], 'buyers': [{'buyer_id':'y1' , 'buyer_age':22}, {

浏览 25提问于2020-05-06得票数 1

回答已采纳

4回答

检查数据帧值中是否出现字符/子串的最简单方法是什么？

考虑一个具有'a - b‘值的pandas数据帧。我想检查数据帧中所有值的任何位置是否出现'-‘，而不是循环遍历各个列。显然，像下面这样的检查是不会起作用的： df.values中的if '-‘ 关于如何检查这个问题有什么建议吗？谢谢。

浏览 56提问于2017-07-06得票数 1

回答已采纳

3回答

Pandas:如果变量为true，则返回功能名称

、、、、

我有一个大约2M字符串的列表和一个大约800个单词的列表。我已经创建了一个数据帧，其中字符串作为行，单词作为列。除了字符串变量之外，所有其他变量都是true或false值，与单词是否在字符串中相对应。不存在缺失值。即 import pandas as pd df = pd.DataFrame({'strings':['a string with california', 'a string with lobster',

浏览 21提问于2019-02-01得票数 1

回答已采纳

4回答

向量化或加速PANDAS列上的Fuzzywuzzy字符串匹配

、、、

我正在尝试在充满组织名称的PANDAS列中寻找潜在的匹配项。我目前正在使用iterrows()，但它在大约有70,000行的数据帧上非常慢。在查看了StackOverflow之后，我尝试实现了一个lambda row (apply)方法，但这似乎几乎不能加快速度。数据帧的前四行如下所示： index org_name 0 cliftonlarsonallen llp minneapolis MN 1 loeb and troper llp newyork NY 2 dauby o'connor and zaleski llc carmel IN 3 wegner c

浏览 4提问于2018-10-04得票数 14

1回答

只有在后跟空格或空(即字符串结尾)时才删除子字符串- Python

、、、

假设我想删除Pandas dataframe列中每个字符串中的"tree“一词。我将指定要在列表中删除的子字符串。然后在列中使用replace和join，如下所示： remove_list = ['\tree\s'] df['column'] = df['column'].str.replace('|'.join(remove_list ), '', regex=True).str.strip() 我将\s添加到树中的原因是因为可能会有树屋或后街之类的词。所以我只想用空格代替这个词，这样我就不会以

浏览 1提问于2021-09-22得票数 1

回答已采纳

1回答

Pandas正在将带有方括号的列作为字符串而不是列表导入

、、、

我正在使用pd.read_csv导入数据帧。其中一列包含字符串列表。例如： >>> df['topic'].head(5) 0 ['ECONOMIC PERFORMANCE', 'ECONOMICS', 'EQUITY ... 1 ['CAPACITY/FACILITIES', 'CORPORATE/INDUSTRIAL'] 2 ['PERFORMANCE', 'ACCOUNTS/EARNINGS', 'CORPORAT... 3

浏览 28提问于2021-04-28得票数 3

回答已采纳

2回答

检索Panda Dataframe列中列表的最后一个元素

、、

我有这个csv文件示例：(将其读作项目AAA成本为1000，项目AAA(1)成本为2000) ColumnName AAA (1000) AAA (1) (2000) 我想创建一个包含所有数字的pandas数据框列即 Column_cost 1000 2000 我尝试用'(‘来拆分它，它返回如下所示的内容(因为第二个项目的名称中有'(’： Result 1 Col_1 Col_2 Col_3 AAA 1000) None AAA 1) 2000) 因此这些数字不在同一列中然后，我尝试创建一列列表，它给出了 Result 2 ColumnName2 [AA

浏览 4提问于2019-05-27得票数 3

回答已采纳

1回答

熊猫:使用Regex清除包含单引号和括号的字符串列？

、、、

我想清除下面的Pandas dataframe列，但是在下面的代码中，我试图用一条简单有效的语句来实现它。输入： string 0 ['string', '#string'] 1 ['#string'] 2 [] 输出： string 0 string, #string 1 #string 2 NaN 代码： import pandas as pd import numpy a

浏览 5提问于2021-02-09得票数 2

回答已采纳

5回答

KeyError:熊猫数据中的错误

、

import pandas as pd businesses = pd.read_json(businesses_filepath, lines=True, encoding='utf_8') restaurantes = businesses['Restaurants' in businesses['categories']] 我想删除类别列中没有餐馆的行，这个列有列表，但是给出了错误'KeyError: False‘，我想了解为什么和如何解决。

浏览 1提问于2017-07-02得票数 15

回答已采纳

1回答

熊猫看csv类档案

、、

我正在尝试将一个Excel文件读取到pandas中，但我得到了消息format and extension of the file don't match。当我尝试使用read_excel时，我会收到一条错误消息，因此我正在使用read_csv。这就是问题所在；我的“Excel like”文件在一些行上有空单元格，它创建了一个奇怪的df，其中一些字段被移动：我的代码如下： 2010 = pd.read_csv(r'{0}\\file.xls'.format(path_temp),sep = r'\t*',encoding='iso-

浏览 1提问于2017-05-26得票数 0

回答已采纳

1回答

如何根据Python列表中的列号过滤数据帧中的行？

、、、、

我有一个Pandas数据帧，它有两列，x和y，分别对应于一个大信号。它的大小约为300万行。 Wavelength from dataframe 我在试着从信号中分离出峰值。在使用scipy之后，我得到了一个1D Python列表，对应于峰值的索引。但是，它们不是信号的实际x值，而只是其对应行的索引： from scipy.signal import find_peaks peaks, _ = find_peaks(y, height=(None, peakline)) 因此，我决定通过将y列中的所有值设置为NaN来过滤原始数据帧，除非它们位于峰值列表中的索引上。我迭代地做了这件事，但是，因

浏览 22提问于2020-02-01得票数 2

2回答

使用列表查找pandas列名

、

我希望使用字符串列表查找pandas列，但即使列包含字符串的一部分，我也希望查找列。现在，如果列名是'TVD‘，并且我的列表中有'tv’，我希望找到它。原因是我想删除这些列，并将它们带回第一列。这是我当前的代码，但我只能找到确切的列名。假设列名是'TVD (英尺)‘，那么我就会有一个问题。 df = sts.read_df(dataset) depth_names_lower = ['tvd', 'tvdss', 'md'] depth_names_upper = [depth.upper() for depth in d

浏览 0提问于2021-02-04得票数 0

1回答

对包含字符串的pandas数据帧中的列求和

、、、

我正在尝试做一些相对简单的事情，即对包含特定字符串的pandas数据帧中的所有列求和。然后使其成为数据帧中来自sum的新列。这些列都是数值浮点值... 我可以获取包含所需字符串的列的列表 StmCol = [col for col in cdf.columns if 'Stm_Rate' in col] 但是当我尝试对它们求和时：cdf['PadStm'] = cdf[StmCol].sum() 我得到了一个充满"nan“值的新列。

浏览 13提问于2019-05-24得票数 2

回答已采纳

1回答

从python中的每个子列表中创建第n个项目的列表

、、

在Python中，我有一个列表，比如 lst = [['2000-01-03', '3.745536', '4.017857', '3.631696'], ['2000-01-04', '3.866071', '3.950893', '3.613839'], ...] 我想创建每个元素的第n个元素的列表，比如 newlst_0 = ['2000-01-03','2000-01-04', ...] newlst_1 = ['3.7

浏览 0提问于2020-11-10得票数 1

1回答

在pandas列中存储列表的最有效方法是什么？

、、

我有一个包含1亿条tweet的熊猫数据帧。我已经从数据中提取了URL，目前已将其作为列表存储在pandas列中：我想在这些URL上运行分析(比如按域名排序，找出哪种类型的用户发布了哪些域)。是否可以像这样存储：其中的URL列是具有动态大小的pandas系列，以便我可以轻松处理？否则，在应用pandas操作和速度的同时，存储urls的最好方法是什么？

浏览 0提问于2019-03-05得票数 1

4回答

根据列名中的字符串列表过滤大型Pandas DataFrame

、、

堆栈溢出家族，我最近开始学习Python，并且正在使用Pandas来处理一些工厂数据。csv文件本质上是一个大数据(1621行×5633列)。虽然我需要所有的行，因为这些是每个单元的数据，但我需要过滤许多不想要的列。我已经在这些列名中标识了一个字符串列表，我只能使用这些字符串来查找想要的列，但是，我无法弄清楚这里有什么好的逻辑，或者任何内置于python函数中的逻辑。对于我来说，dropna不是一个选项，因为其中一些想要的列具有NA作为值(例如，测试限制)，对于所有NA的列来说，下拉列表也不够好，因为我仍然会有大量的列。在这里找些指导。谢谢您抽时间见我。

浏览 5提问于2021-04-08得票数 0

回答已采纳

1回答

如果另一列中的值在列表中，则更新数据帧列值

、

我希望根据另一列的值以及它们在列表中的存在来更新数据帧的列。 import pandas as pd import pandas as pd df = pd.DataFrame({'user': ['Bob', 'Jane','Theresa', 'Alice'], 'category': ['black','red','green','yellow']}) lst = ['Jane&

浏览 9提问于2021-03-12得票数 0

2回答

Pandas惯用的将json列表映射到dataframe的方式

、、

我有一个从json输入派生的数据集，我希望将其映射到pandas dataframe。假设对应于表的各个行的json如下所示： popo = {'foo': 3.14, 'bar': [1, 2, 3]} 也就是说，与我的表中所需列之一对应的键本身是一个固定长度的列表。使用pandas.DataFrame.from_dict或pandas.io.json.json_normalize加载这类字典的列表，会产生一个包含两列的数据帧: foo和bar。在这两种情况下，bar都是object类型，这些对象是python列表。 df = pd.DataFrame.f

浏览 46提问于2019-03-04得票数 2

1回答

除非满足另一个列条件，否则从数据帧中排除行

、、

我想从我的数据帧中排除满足列表(eligibility_criteria)条件的行，除非关税列以‘*’开头。这就是我所拥有的： import pandas as pd df = df[~df['eligibility'].str.contains(eligibility_criteria, na=False)] #This works 我如何添加这个'except‘限定符... #df['tariff'].str.startswith("***")

浏览 20提问于2019-05-14得票数 3

回答已采纳

1回答

是否选择名称中包含列表中的一个字符串的列？

、、

我有一个数据帧，其中的列遵循一定的命名约定。我只想保留那些在标题中有'out‘和'agg’作为前缀的内容。我已经起草了以下代码来实现这一点。我创建了一个列表，这样我就可以让它成为一个小函数，并为我想要提取的col前缀的任何组合调用它。 prefix = ['out', 'agg'] cols = [] for pref in prefix: cols = cols + [col for col in df.columns if pref in col] df = df[cols].dropna(how='all', a

浏览 14提问于2020-09-28得票数 1

回答已采纳

1回答

字符串转换为序列时出现类型错误

、、、

我想在excel数据帧中创建一个新的列"HQ_LOC"，它接受来自wharton['conm']的字符串j作为值 xls = excel[(excel['prowess_compustat_h1b'] == 1) | (excel['compustat_h1b'] == 1)] excel['HQ_LOC'] = pd.Series([]) for name in xls["coname"]: for j in wharton['conm']: if nam

浏览 1提问于2021-03-24得票数 0

1回答

按R中的部分对象名筛选或子集列表

我有一个包含417个数据帧的列表。每个数据帧在列表中都有一个单独的名称，以“1981年12月”开始，以“2016年8月”结尾。这些物品按时间顺序排列。我想要子集或过滤这个列表只是按月名。例如，只使用Jan对象(数据帧)创建一个新的列表对象。我的列表名为SST_list，到目前为止，我尝试了几种不同的解决方案。这些都不管用。 Jan_data <- SST_list[names(SST_list)=="Jan"] 这没有任何回报，但是预期的。我尝试使用grep和grepl编写一些代码，但这些代码会使我的R会话崩溃。我也试过 Jan_data <- lapply

浏览 2提问于2016-10-11得票数 6

回答已采纳

1回答

Python :合并列表列上的两个Pandas Dataframe

、、、、

我需要根据一列名为"authors“的列表找到两个pandas数据帧之间的交集。但我得到的却是这个错误：

浏览 3提问于2017-06-23得票数 0

1回答

从包含子字符串的数据帧列表中提取数据帧

、、

我在python中有以下数据帧，它们是列表的一部分。 dataframe_list= []## CREATE AN EMPTY LIST import pandas as pd A=pd.DataFrame() A["name"]=["A", "A", "A"] A["att"]=["New World", "Hello", "Big Day now"] B=pd.DataFrame() B["name"]=["A2", "A

浏览 16提问于2020-09-25得票数 0

回答已采纳

1回答

在两个pandas数据帧中查找匹配值，并从匹配行中返回一个值

、、、

很难用一种清晰准确的方式来表达这个问题，所以希望下面的内容能帮助我更好地理解我的问题。我有两个pandas数据帧，在这个例子中简化了，它们是： df1 = 'CENSUS_ID' 60014001001 60014002001 df2 = 'GEO_ID' 'MED_INCOME' 60014001001 177417 60014002001 166313 60014002002 132400 60014003001 161964 我想在df1中添加一个名为'MED_INCOME‘的列，方法是在df2中

浏览 17提问于2019-01-22得票数 1

回答已采纳

2回答

尝试从列中提取毫秒数并转换为日期格式

、

我正在做一个udacity.com教程我在语法上有点问题。我正在尝试对行的列表进行分级，获取'ts列的内容。以毫秒为单位并返回日期格式列表。format='%H%d%U%B%Y%A'格式的我收到以下错误： File "<ipython-input-16-66d05f14b2ae>", line 1 t = pd.to_datetime(df.loc[[df['ts']], format='%H%d%U%B%Y%A', errors='ignore'])

浏览 11提问于2020-06-22得票数 2

回答已采纳

1回答

Pandas series.replace结果的问题

、、

I使用熊猫series.replace和regex=True，但替换结果令人困惑。 My requirement：对字典中的值执行大小写不敏感的替换，只有在列值与任何to_replace值列表完全匹配的情况下 import pandas as pd replace_dict = {'True': 1, 'Yes': 1, 'False': 0, '.0+$': ''} df = pd.DataFrame(data=['true', 'TRue','False',

浏览 6提问于2022-10-12得票数 0

4回答

在Python Pandas中跨多列删除所有重复的行

、、、

pandas drop_duplicates函数非常适合用来“唯一”一个数据帧。但是，要传递的关键字参数之一是take_last=True或take_last=False，而我希望删除列的子集上重复的所有行。这个是可能的吗？ A B C 0 foo 0 A 1 foo 1 A 2 foo 1 B 3 bar 1 A 例如，我想删除与列A和C匹配的行，因此应该删除第0行和第1行。

浏览 75提问于2014-05-15得票数 197

回答已采纳

7回答

在R中搜索不区分大小写的列表

我可以在字符列表中搜索不知道字符串大小写的字符串吗？或者更广泛地说，我试图引用数据帧中的列，但我不知道这些列是如何大小写的。我的想法是以不区分大小写的方式搜索names(myDataFrame)，以返回列的正确大小写。

浏览 5提问于2011-04-15得票数 45

回答已采纳

1回答

Pandas:根据搜索多个行值返回多个列值

、、

假设我在Pandas中有一个数据帧： import pandas as pd import numpy as np df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(), 'B': 'one one two three two two one three'.split(), 'C': '0 1 2 3 4 5 6 7'.split(),

浏览 1提问于2021-05-12得票数 0

3回答

如何从pandas数据帧中删除方括号

、、、

在将str.findall()应用于pandas数据帧的列之后，我想出了方括号中的值(更像是list)。怎样才能去掉方括号？ print df id value 1 [63] 2 [65] 3 [64] 4 [53] 5 [13] 6 [34]

浏览 2提问于2016-07-01得票数 21

回答已采纳

1回答

如果上面的行具有相同的值，则删除Pandas数据帧的两列中的值

、

使用此示例pandas df： ColA ColB ColC Apple Fruit Food Apple Fruit Pie Apple Arrow Story 我正在尝试滚动数据帧，如果当前行中的ColA和ColB中的值与前一行中的值相同，则只删除这两列的当前行值。预期的结果将是： ColA ColB ColC Apple Fruit Food Pie Apple Arrow Story 我尝试使用iloc执行各种循环，获取这两列的当前行值，将它们存储在一个变量中，然后检查后续行是否相同。然而，在我的5行测试数据中，不断收

浏览 13提问于2021-09-09得票数 0

回答已采纳

1回答

如何重新建立索引以合并两个数据帧？

、

我正在尝试合并两个都有'product_desc‘列的数据帧。我使用的是Pandas 0.13和Python 2.7。 small_df = pd.merge(small_df, linregress_df, on = 'product_desc', how = 'left') 但是，我得到以下错误： pandas.core.index.InvalidIndexError: Reindexing only valid with uniquely valued Index objects 我将两个数据帧导出到平面文件中，其中的索引或其他列都没有重复值。我需

浏览 8提问于2014-06-09得票数 2

1回答

从现有数据帧的某些列创建新的pandas数据帧

、、

我已经阅读了将csv文件加载到pandas数据帧中，并希望对该数据帧进行一些简单的操作。我不知道如何根据从原始数据框中选择的列来创建新的数据框。我的尝试是： names = ['A','B','C','D'] dataset = pandas.read_csv('file.csv', names=names) new_dataset = dataset['A','D'] 我想用原始数据帧中的列A和D创建一个新的数据帧。

浏览 1提问于2017-07-11得票数 24

回答已采纳

1回答

计算pandas数据框列表中列的平均值和曲线图分布

、、、、

我有一个dflist数据帧列表dflist，我想用pandas绘制数据帧中单个列的子集的平均分布。以下是我到目前为止拥有的代码： import seaborn as sns import numpy as np import pandas as pd import matplotlib.pyplot as plt df1 = pd.DataFrame(np.random.rand(100, 6) , columns=list('ABCXYZ')) df2 = pd.DataFrame(np.random.rand(100, 6) , columns=list('

浏览 12提问于2020-03-16得票数 0

回答已采纳