Pandas根据条件从列值创建列表

Pandas 是一个基于 NumPy 的 Python 数据分析库，它提供了大量的数据操作和分析工具。使用 Pandas 可以轻松地从 DataFrame 中根据条件筛选数据并创建列表。

基础概念

DataFrame：Pandas 中的一个二维表格型数据结构，可以存储多种类型的数据，并且具有行索引和列索引。

条件筛选：根据指定的条件来过滤 DataFrame 中的数据。

类型与应用场景

类型：主要应用于结构化数据的处理，如表格数据、时间序列数据等。
应用场景：数据分析、数据清洗、数据预处理、机器学习数据准备等。

示例代码

假设我们有一个包含学生信息的 DataFrame，如下所示：

import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age': [24, 27, 22, 32, 29],
    'Score': [85, 88, 92, 78, 95]
}

df = pd.DataFrame(data)

根据条件从列值创建列表

示例1：筛选出年龄大于 25 岁的学生姓名列表。

names_above_25 = df[df['Age'] > 25]['Name'].tolist()
print(names_above_25)  # 输出: ['Bob', 'David', 'Eva']

示例2：筛选出分数大于 90 的学生姓名和分数的元组列表。

high_scores = list(df[df['Score'] > 90][['Name', 'Score']].itertuples(index=False, name=None))
print(high_scores)  # 输出: [('Charlie', 92), ('Eva', 95)]

遇到的问题及解决方法

问题：在使用条件筛选时，可能会遇到性能问题，尤其是在处理大规模数据集时。

原因：Pandas 在处理大数据集时，可能会因为内存限制或计算复杂度而导致性能下降。

解决方法：

优化条件表达式：尽量使用简单的布尔索引，避免复杂的嵌套条件。
分块处理：对于非常大的数据集，可以使用 chunksize 参数分块读取和处理数据。
使用更高效的数据结构：在某些情况下，可以考虑使用 Dask 或 Vaex 等库来处理超大规模的数据集。

例如，使用 chunksize 分块处理数据：

chunk_size = 1000
results = []

for chunk in pd.read_csv('large_dataset.csv', chunksize=chunk_size):
    filtered_chunk = chunk[chunk['Age'] > 25]
    results.extend(filtered_chunk['Name'].tolist())

print(results)

通过这些方法，可以有效地解决在大规模数据集上进行条件筛选时遇到的性能问题。

Pandas根据条件从列值创建列表

、、

我有一个dataframe，其中的列带有分配给文本的标签。我想创建一个tags列，它将包含不带NaN的所有可能标签的列表。我可以从单个列表中删除NaN，但不确定从标记列中的所有列表中删除它们的最有效方法是什么。我的数据帧包含30,000行。任何帮助都将不胜感激！import pandas as pd df = pd.DataFrame(data = {'text': ['Quinbr

浏览 39提问于2021-10-26得票数 1

回答已采纳

1回答

作为关键字的变量的列标签列表

我正在使用Pandas数据帧对数据表执行操作。根据列中的值，需要写入四种类型的输出csv文件。我可以列出我想写入csv的列标题，但不能将该列表传递给df.to_csv('filename.csv'，columns='fixed1'，'fixed2'，variable_list)。我不想写出所有条件的所有列标题。我有带有中间计算的列，所以我不想将所有列都写到c

浏览 7提问于2019-06-30得票数 0

回答已采纳

2回答

从df列中的列表中筛选项

、、

我试图找出如何从列类型为list的另一列中创建一个具有值的新列。如果该值满足条件，我很难只从该列表中选择特定的值，而不是整个列表。id3 ['bookcritic', 'young adult',

浏览 1提问于2021-05-28得票数 2

回答已采纳

2回答

使用Pandas Getdummies或isin从包含列表的要素创建布尔要素

、

我有一个pandas dataframe，其中一列包含每个实例的唯一字符串列表：为了完成这项任务，我从特性中

浏览 18提问于2018-06-14得票数 0

回答已采纳

2回答

根据多列选择数据框行，其中应创建新函数来处理某些列中的条件

、、

我有一个由多列组成的数据帧。我想根据多列中的条件选择行。假设我在一个数据帧中有四列： import pandas as pd "B":['Tokyo','Madrid','Professor','helsinki我必须创建一个函数来处理C列。因为如果该行包含一个带有//的<e

浏览 16提问于2020-03-30得票数 3

回答已采纳

2回答

熊猫在包含列表的列上应用条件

、

我希望根据必须应用于列表的条件创建一个新列。下面是一个可重复的例子： { "BRAND2 [LVH]3 4 [WDC, AUD, LVH]可以看到，BRAND列</

浏览 8提问于2022-10-05得票数 2

回答已采纳

1回答

检查行值是否与列表中的某个值匹配，然后在新列中分配1/0

、

如何通过以下条件在pandas数据框中创建新列？如果列'Ex‘与此列表l=['cnn', 'nba', 'agi', 'apple']中的一个元素匹配，则：我会按以下方式处理这个问题： df['S']=df['Ex'

浏览 3提问于2020-08-01得票数 2

回答已采纳

2回答

熊猫-滴函数

、、、

基于特定列的值在列表中的条件，我希望从dataframe中删除行。如果不是这样的话，我希望删除行。例如，如果列'C‘中的值不在列表l中，我希望删除整行import numpy as np df = pd.DataFrame(np.random.randint

浏览 12提问于2022-05-10得票数 0

回答已采纳

1回答

在DateTime的条件列表中将字符串输入转换为numpy.select

、、、

我的条件之一是捕获用户输入的日期(主要是YYYY年)，以检查我的EXCEL文件的event_start列(读入pandas.DataFrame)中哪些数据属于该时间范围：但是，此条件不返回任何结果。在条件列表中转换为日期时间是不可能的，因为f['event_start']本质上是一个序列，

浏览 16提问于2022-03-02得票数 0

2回答

当列标题是日期-时间值时，如何对Pandas数据帧逐列标题值进行切片？

、

我有一个excel文件，其中列名包含日期-时间值.如您所见，标题值采用日期-时间格式。我已经将它加载到Pandas dataframe中，并且头值确实被保存为日期时间值。现在，如果我需要从Pandas查询，“选择所有大于5月15日的列”，我如何做到这一点？我知道，通过查询df[df.columns[3:]]，我可以实现这一点。但是，我真的想根据列标题的值而不是根据列的

浏览 7提问于2015-12-23得票数 2

回答已采纳

1回答

如何根据具有特定值的多个列对DataFrame进行子集(使用loc() )？

、

如果我想根据指定列具有多个指定值的条件创建DataFrame的子集，则可以这样做：如果我有一个列名列表，那么根据条件创建DataFrame子集的最佳方法是什么，该条件检查这些列是否包含特定的值。例如，列名列表是： ['column_

浏览 4提问于2017-05-10得票数 1

回答已采纳

3回答

如果其他条件在熊猫中多列作为论证

、、

我有一个这样的df：df = pd.DataFrame({"code": [sp,wh,sp], "qty": [20, 30, 10]}) 如果满足条件，我希望根据这两列的数据创建一个新列，如果满足条件，则新列的值与现有列相同。

浏览 6提问于2022-11-27得票数 0

回答已采纳

1回答

基于多重过滤准则的Pandas数据帧列唯一值的Pythonic方法

、

我试图根据多个过滤条件在Pandas数据帧中的特定列中获得唯一值。Purple', '<null>', '<null>', 'Blue', 'Green', 'Green', 'Black', 'White', 'Gold', 'Tan']}) 我试图获得Color列的唯一<e

浏览 2提问于2020-05-27得票数 0

回答已采纳

1回答

根据其他列条件查找列值

我想根据B栏的条件找出A栏的值。例如，从值列中查找第一个'B‘的ts：df = pd.DataFrame

浏览 2提问于2022-08-29得票数 0

回答已采纳

2回答

根据条件修改DataFrame列值

、

我试图根据条件修改数据帧列的字符串格式。下面是该文件的一个示例然而，我似乎无法做到这一点:我尝试用.startswith(h)或cant (‘http’)创建一个简单的if条件，但它不起作用，因为我知道它实

浏览 1提问于2019-02-23得票数 0

回答已采纳

1回答

在Google中，如何让单元格根据单元格B、C和D的值返回单元格A的值？

我试图创建一个简单的数据库，它根据许多不同的条件返回一个值。下面是用于访问数据的Search页面：它们从第2行中的一个或多个条件中进行选择(文本类型、最多三个标记或读取级别)；所有其他单元格都将受到保护。我希望它们的结果出现在从A3向下的列表中(我已经设置了工作表，以便根据A列中的数据填充其余的行)。到目前为止，这里是数据库。我希望根据文本类型、标记和/或读取级别列中的标准，<em

浏览 0提问于2020-12-09得票数 1

4回答

根据列条件交换列值(Pandas* DataFrame)*

、

DataFrame有两列整数A和B。1 32 0...= tempa b2 4 <----1 6 <---- 基本上在A列中总是有两个中较小的值

浏览 0提问于2017-08-04得票数 4

1回答

根据列条件创建列表

、

1003 1 2 4 300 250我想再创建两个包含lists的列，一个用于"Hall"，另一个用于"Reading" LED CFL Incan Hall Reading Hall_List Reading_List2 4 300 250 [0,2,0] [1,0,0] 4 3

浏览 1提问于2016-09-26得票数 1

4回答

要列出的Pandas* DataFrame列*

、

我正在根据满足的另一列中的条件从一列中提取数据的子集。 lookupValue = tst['SomeCol'] == "SomeValue

浏览 4提问于2014-05-20得票数 188

2回答

基于条件从现有数据框架创建新的数据框架

、、、

我有一个数据帧dfimport numpy as np[0,0,1,0,0,1]]))现在，从数据帧df中，我喜欢根据条件创建一个新的数据帧:如果一个列包含三个或三个以上的'1‘，那么新的数据帧列值是

浏览 2提问于2021-12-15得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pandas根据条件从列值创建列表

基础概念

相关优势

类型与应用场景

示例代码

根据条件从列值创建列表

遇到的问题及解决方法

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐