开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为每行创建一个列，其中列表值来自以数据帧中的子字符串开头的列

要为每行创建一个列，其中列表值来自以数据帧中的子字符串开头的列，我们可以使用Python的pandas库来实现这一需求。以下是一个基本的示例：

import pandas as pd

# 假设我们有以下的DataFrame
data = {
    'A': ['foo_1', 'bar_2', 'baz_3'],
    'B': ['foo_4', 'bar_5', 'baz_6'],
    'C': ['foo_7', 'bar_8', 'baz_9']
}
df = pd.DataFrame(data)

# 创建一个空的字典来存储结果
result = {}

# 遍历DataFrame的列
for column in df.columns:
    # 使用str.startswith方法检查每个元素是否以'foo_'开头
    mask = df[column].str.startswith('foo_')
    # 如果是，将对应的值添加到结果字典中
    if mask.any():
        result[column] = df.loc[mask, column].tolist()

# 将结果字典转换为DataFrame
result_df = pd.DataFrame(result)

print(result_df)

这段代码会检查DataFrame中的每一列，找出以'foo_'开头的元素，并将这些元素按列名作为键，元素列表作为值存储在一个新的字典中。最后，这个字典被转换成一个新的DataFrame。

输出将会是：

     A    B
0  [foo_1]  [foo_4]
1     NaN  [foo_7]

在这个例子中，我们只查找了以'foo_'开头的元素，但你可以根据需要修改startswith方法中的字符串来匹配不同的子字符串。

如果你遇到的问题是在处理大型数据集时性能下降，可能是因为遍历整个DataFrame和字符串操作比较耗时。解决这个问题的一种方法是使用pandas的向量化操作，这通常比循环遍历更快。此外，确保你的pandas库是最新的版本，因为新版本通常会包含性能改进。

参考链接：

如果你需要进一步的帮助或者有其他问题，请随时提问。

相关搜索:如何过滤数据帧中的值，其中列的值是字符串列表？在数据帧中创建列，为不同数据帧中的.iloc传递列中的值从列表中创建数据帧中的列(列数更改)根据不同的列值为数据帧中的列赋值在R中创建每行递增到数据帧长度的列如果数据帧的A列中的值为null，则将B列中的值写入A列根据数据帧其中一列中的子字符串删除数据帧的行比较数据帧的列中的嵌套列表值为列表中的每个值创建数据帧 pandas:从存储为列值的列表中创建新列创建一个列，其中的元素是字典，这些值基于数据帧的另一列从Pandas列中获取每行一个值的列表如何从pandas数据帧中另一列的多个值创建列中的值列表？通过列中的子字符串屏蔽数据帧创建Dataframe列，该列使用字典来映射数据帧中相应的键、值 Python:创建两个列的组合，其中包含列表作为其在数据帧中的值使用其中一列中的值为pandas数据帧建立索引将每行都是一个列表的数据帧拆分为多个列如何使用列中的值组合创建数据帧通过在pandas中追加来自不同数据帧的列来创建列

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Pandas 秘籍：1~5

本章的目的是通过彻底检查序列和数据帧数据结构来介绍 Pandas 的基础。对于 Pandas 用户来说，了解序列和数据帧的每个组件，并了解 Pandas 中的每一列数据正好具有一种数据类型，这一点至关重要。

01

SQL and R

R平台及编程语言支持浩大的数据科学技术，他拥有几十年的的历史和超过7000个包，这挂在CRAN的包纷杂的让你无法决定从哪里入手。R-Basics和Visualizing Data with R提供了基础的指导，但是没有详细介绍如何用R操作数据集。幸运的是，数据库专业人员可以通过他们的精湛的SQL技术，短时间内在这个领域变得更有效率。如你所愿，R支持使用SQL检索中心位置的关系数据库中的数据。然而，一些R包允许你超出这领域创建介于处理和分析数据之间的集席数据集的飞速查询，而不管数据的来源和最终目标。

盘一盘 Python 系列 - Cufflinks (下)

本文是 Python 系列的 Cufflinks 补充篇。整套 Python 盘一盘系列目录如下：

01

嘀~正则表达式快速上手指南（下篇）

上面的代码中用 for 循环去遍历 contents 这样我们就可以一个一个处理每封邮件。我们创建一个字典， emails_dict,这将保存每个电子邮件的所有细节，如发件人的地址和姓名。事实上，这些是我们要寻找的第一项信息。

01

R语言函数的含义与用法，实现过程解读

R的源起 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件，它基于S语言，并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处，两个软件有一定的兼容性。 R is free R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的

R语言函数的含义与用法，实现过程解读

R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件，它基于S语言，并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处，两个软件有一定的兼容性。

03

Pandas 秘籍：6~11

当以某种方式组合多个序列或数据帧时，在进行任何计算之前，数据的每个维度会首先自动在每个轴上对齐。轴的这种无声且自动的对齐会给初学者造成极大的困惑，但它为超级用户提供了极大的灵活性。本章将深入探讨索引对象，然后展示利用其自动对齐功能的各种秘籍。

01

50个Pandas的奇淫技巧:向量化字符串，玩转文本处理

对于文本数据的处理(清洗)，是现实工作中的数据时不可或缺的功能，在这一节中,我们将介绍Pandas的字符串操作。Python内置一系列强大的字符串处理方法，但这些方法只能处理单个字符串，处理一个序列的字符串时，需要用到for循环。

06

7. Pandas系列 - 排序和字符串处理

sort_values()提供了从mergeesort，heapsort和quicksort中选择算法的一个配置。Mergesort是唯一稳定的算法

01

python数据分析——数据的选择和运算

在数据分析中，数据的选择和运算是非常重要的步骤。数据选择和运算是数据分析中的基础工作，正确和高效的选择和运算方法对于数据分析结果的准确性和速度至关重要。

01

精通 Pandas 探索性分析：1~4 全

在本章中，我们将学习如何在 Pandas 中使用不同种类的数据集格式。我们将学习如何使用 Pandas 导入的 CSV 文件提供的高级选项。我们还将研究如何在 Pandas 中使用 Excel 文件，以及如何使用read_excel方法的高级选项。我们将探讨其他一些使用流行数据格式的 Pandas 方法，例如 HTML，JSON，PKL 文件，SQL 等。

01

帮助数据科学家理解数据的23个pandas常用代码

返回给定轴缺失的标签对象，并在那里删除所有缺失数据（’any’：如果存在任何NA值，则删除该行或列。）。

04

SQL谓词 %STARTSWITH（一）

%STARTSWITH谓词允许选择以子字符串中指定的字符开头的数据值。如果substring不匹配任何标量表达式值，%STARTSWITH返回空字符串。无论显示模式如何，这个匹配总是在逻辑(内部存储)数据值上执行。

03

R语言使用特征工程泰坦尼克号数据分析应用案例

特征工程对于模型的执行非常重要，即使是具有强大功能的简单模型也可以胜过复杂的算法。实际上，特征工程被认为是决定预测模型成功或失败的最重要因素。特征工程真正归结为机器学习中的人为因素。通过人类的直觉和创造力，您对数据的了解程度可以带来不同。

03

R语言中 "apply" 函数详解

数据操作是机器学习生命周期中最关键的步骤之一。它需要转换所提供的数据，以便用于建立预测模型。

04

【题解】子字符串（简单版）

同学们都知道，字符串的概念指的是：用引号“ ”括起来的一串有限序列的字符。而子字符串就是字符串内的字符序列。

01

Pandas时序数据处理入门

作为一个几乎每天处理时间序列数据的人，我发现pandas Python包对于时间序列的操作和分析非常有用。

02

盘一盘 Python 系列特别篇 - 实战正则表达式

https://www.worldometers.info/coronavirus/

07

特殊变量 (SQL)

SQL直接支持许多对象脚本特殊变量。这些变量包含系统提供的值。只要可以在SQL中指定文字值，就可以使用它们。

02

Python学习手册(第4版).4

由于 ' 和 " 会引起歧义，因此，我们在它前面插入一个\表示这是一个普通字符，不代表字符串的起始，因此，这个字符串又可以表示为

03

数据科学和人工智能技术笔记十九、数据整理（上）

“这个分组变量现在是GroupBy对象。除了分组的键df ['key1']的一些中间数据之外，它实际上还没有计算任何东西。我们的想法是，该对象具有将所有操作应用于每个分组所需的所有信息。” – PyDA

01

PySpark UD(A)F 的高效使用

Spark无疑是当今数据科学和大数据领域最流行的技术之一。尽管它是用Scala开发的，并在Java虚拟机(JVM)中运行，但它附带了Python绑定，也称为PySpark，其API深受panda的影响。在功能方面，现代PySpark在典型的ETL和数据处理方面具有与Pandas相同的功能，例如groupby、聚合等等。

03

如何利用维基百科的数据可视化当代音乐史

翻译校对：丁雪吴怡雯程序验证修改：李小帅 “我相信马塞勒斯·华莱士，我的丈夫，你的老板吩咐你带我出门做我想做的任何事。现在，我想跳舞，我要赢，我想得到那个奖杯，把舞跳好来！” 《黑色追缉令》

07

读完本文，轻松玩转数据处理利器Pandas 1.0

常用数据科学库 Pandas 刚刚年满十二岁，现在已经发布到 1.0.0 版。首个 Pandas 1.0 候选版本显示出，现在的 Pandas 在遇到缺失值时会接收一个新的标量，遵循语义化版本控制（Semantic Versioning）形成了新的弃用策略，网站也经过了重新设计……

02

干货！直观地解释和可视化每个复杂的DataFrame操作

大多数数据科学家可能会赞扬Pandas进行数据准备的能力，但许多人可能无法利用所有这些能力。操作数据帧可能很快会成为一项复杂的任务，因此在Pandas中的八种技术中均提供了说明，可视化，代码和技巧来记住如何做。

02

读完本文，轻松玩转数据处理利器Pandas 1.0

常用数据科学库 Pandas 刚刚年满十二岁，现在已经发布到 1.0.0 版。首个 Pandas 1.0 候选版本显示出，现在的 Pandas 在遇到缺失值时会接收一个新的标量，遵循语义化版本控制（Semantic Versioning）形成了新的弃用策略，网站也经过了重新设计……

01

入门 | 简易指南带你启动 R 语言学习之旅

选自TowardsDataScience 作者：Vihar Kurama 机器之心编译参与：刘晓坤、许迪 R 语言是结合了 S 编程语言的计算环境，可用于实现对数据的编程；它有很强大的数值分析工具，对于处理线性代数、微分方程和随机学的问题非常有用。通过一系列内建函数和库，你可以用 R 语言学习数据可视化，特别是它还有很多图形前端。本文将简单介绍 R 语言的编程基础，带你逐步实现第一个可视化案例。代码地址：https://github.com/aaqil/r-lang-fundamentals R 语言最

04

嘀~正则表达式快速上手指南（上篇）

作为数据科学家，快速处理海量数据是他们的必备技能。有时候，这包括大量的文本语料库。例如，假设要找出在 Panama Papers（https://en.wikipedia.org/wiki/Panama_Papers）泄密事件中邮件的发送方和接收方，我们需要详细筛查1150万封文档！我们可以手工完成上述任务，人工阅读每一封邮件，读取每一份最后发给我们的邮件，或者我们可以借助Python的力量。毕竟，代码存在的一个至关重要的理由就是自动处理任务。

02

强烈推荐Pandas常用操作知识大全！

https://github.com/SeafyLiang/Python_study

02

Pandas 数据分析技巧与诀窍

Pandas是一个建立在NumPy之上的开源Python库。Pandas可能是Python中最流行的数据分析库。它允许你做快速分析，数据清洗和准备。Pandas的一个惊人之处是，它可以很好地处理来自各种来源的数据，比如:Excel表格、CSV文件、SQL文件，甚至是网页。

04

数据科学和人工智能技术笔记十九、数据整理（下）

“全外连接产生表 A 和表 B 中所有记录的集合，带有来自两侧的匹配记录。如果没有匹配，则缺少的一侧将包含空值。” – [来源](http://blog .codinghorror.com/a-visual-explanation-of-sql-joins/)

01

太赞了！30 个 Python 函数，加速你的数据分析处理速度！

Pandas 是 Python 中最广泛使用的数据分析和操作库。它提供了许多功能和方法，可以加快「数据分析」和「预处理」步骤。

06

NumPy 和 Pandas 数据分析实用指南：1~6 全

在本章中，我们将讨论如何安装和管理 Anaconda。 Anaconda 是一个包，我们将在本书的以下各章中使用。

03

MySQL见闻录 - 入门之旅（四）

MySQL能够识别和使用的数据值包括数值、字符串值、日期/时间值、坐标值和空值(NULL)。

01

Quantopian 入门系列二 - 流水线 (上)

在上贴〖Quantopian 系列一〗我们初探了的流水线（pipeline），本帖我们就把它揉碎了讲。

04

SQL谓词 %STARTSWITH（二）

在大多数情况下，%STARTSWITH将前导空格视为与任何其他字符相同的字符。例如，%STARTSWITH ' B'可用于选择只有一个前导空白后跟字母B的字段值。然而，只包含空白的子字符串不能选择前导空白; 它选择非空值。

01

Python 算法基础篇之字符串操作：索引、切片、常用方法

字符串是一种常见的数据类型，在 Python 中对字符串进行操作是非常常见的需求。本篇博客将介绍字符串的基本概念，包括索引、切片和常用方法，并通过实例代码演示它们的应用。

00

十分钟入门 Pandas

Pandas是基于Numpy的一种工具，目的是解决数据分析任务。通过纳入大量库和一些标准数据模型，提供了高效操作大型数据集所需工具；

03

Python学习笔记：Python字符串操作

find方法从左至右搜索字符串，返回指定子字符串第一次出现的索引值。注意，索引值从0开始。其语法为：

01

十分钟入门Pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

03

Linux中awk的使用方法详解

在学习awk之前我们应该都学过sed,grep,tr,cut等等命令，这些命令都是为了方便我们对Linux下文本和数据的处理，但是我们会发现很多时候这些命令并不能一下子就完全解决我们的需求，很多时候我们都需要使用管道符结合这些命令来使用，今天我就给大家介绍一个命令awk，他就能很好的解决我们对文本和数据处理的需求，使我们一条命令就解决很多问题。

03

Python3 字符串操作方法总结

Python3 的字符串操作方法包括 string 替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割 split() 等。

02

数据科学 IPython 笔记本 7.13 向量化字符串操作

Python 的一个优点是它在处理和操作字符串数据方面相对容易。Pandas 构建于此之上，并提供了一套全面的向量化字符串操作，它们成为处理（阅读“清理”部分）实际数据时所需的重要部分。在本节中，我们将介绍一些 Pandas 字符串操作，然后使用它们来部分清理从互联网收集的，非常混乱的食谱数据集。

02

yyds！1w 字的 pandas 核心操作知识大全。

工作中最近常用到pandas做数据处理和分析，特意总结了以下常用内容。 pandas常用速查引入依赖 # 导入模块 import pymysql import pandas as pd import numpy as np import time # 数据库 from sqlalchemy import create_engine # 可视化 import matplotlib.pyplot as plt # 如果你的设备是配备Retina屏幕的mac，可以在jupyter notebook中，使用下

03

Pandas 学习手册中文第二版：1~5

欢迎来到《Pandas 学习手册》！在本书中，我们将进行一次探索我们学习 Pandas 的旅程，这是一种用于 Python 编程语言的开源数据分析库。 pandas 库提供了使用 Python 构建的高性能且易于使用的数据结构和分析工具。 pandas 从统计编程语言 R 中带给 Python 许多好处，特别是数据帧对象和 R 包（例如plyr和reshape2），并将它们放置在一个可在内部使用的 Python 库中。

01

一日一技：正则表达式中的re.S标记和re.M标记

Python的re模块中, search、 findall、 match等函数的参数都是 (pattern,string,flags), 第三个参数 flags有忽略大小写的re.I, 让模式更易读的re.X等, 而其中re.S和re.M比较难理解, 下面介绍一下。

02

SQL命令 HAVING（二）

如果Home_State等于括号列表中的任意值，则计算为TRUE。列表元素可以是常量或表达式。排序规则适用于IN比较，因为它适用于相等性测试。默认情况下，IN比较使用字段定义的排序规则类型；默认情况下，字符串字段定义为SQLUPPER，不区分大小写。

03

Python 学习笔记（4.19更）

由于文档中换行，在读取是会读取换行符'\n'，所以显示出来会有一行空行，每隔一行显示内容

04

SQL函数 INSTR

INSTR在字符串中查找子字符串，并返回子字符串的第一个字符的位置。位置以整数形式返回，从字符串的开头开始计算。如果substring没有找到，则返回0(0)。如果传递给任何一个参数一个NULL值，INSTR将返回NULL。

00

分析你的个人Netflix数据

这是一个在过去几年里反复出现在我脑海中的问题。很长一段时间以来，情景喜剧一直是我的首选。

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭