如何使用正则表达式从DataFrame中提取数据？_从dataframe中提取数据_如何在python (Index)中从dataframe中提取数据 - 腾讯云开发者社区

、、、

我有格洛斯特郡警察报告的2011-16年的犯罪数据。这是我导入到Pandas数据帧中的.csv文件。我想将这些数据按其相关的城镇/城市进行分组，例如‘'Gloucester'，'Tewkesbury'，忽略每个城市中的特定LSOAs。理想情况下，我会向dataframe追加一个新列，只复制其中的地名，并对其进行分组。我对如何进行分组很满意，但首先不是新的专栏。任何关于如何做到这一点的建议都将受到感谢。

浏览 3提问于2017-04-23得票数 0

1回答

如果regex不能匹配，如何返回null？

、

我在Scala中使用了spark 2.4。我使用regexp_extract()从数据中提取相关字段：我有一个样本数据：我使用以下正则表达式提取字段\;\&]+)regexp_extract("foo/

浏览 6提问于2022-07-27得票数 0

1回答

python使用regex创建新列

、、、

我正在尝试从Python dataframe中的现有列创建一个新列。"A-Z*A-Z.{9}“

浏览 12提问于2019-11-21得票数 1

回答已采纳

2回答

用于清除名称的正则表达式

、

我有两个名字的数据。dataframe更长，但我使用top3作为示例。JOSEPH W. JOHNAAMIR, DENNIS MABAD, FARLEY J 我需要提取这两个dfs中的名字，如何在一个正则表达式中提取它们可以用Python编写两个正则表达式代码来<e

浏览 1提问于2020-10-08得票数 1

回答已采纳

3回答

将数据分割成几个数据

、

我有一个基于regex搜索的数据文件，我需要分割成几个数据格式。搜索没有固定的模式，即有时有一个单一的正则表达式，有时是几个的组合。下面是一个只提取了一组行的最小示例：Age <- c(20, 30, 31, 33)注意，我正在将一些行提

浏览 0提问于2018-10-24得票数 3

回答已采纳

1回答

如何在Julia中从单列DataFrame中提取column_name字符串和数据向量？

、

我能够使用正则表达式提取我想要的向量的列，但是现在我想从该DataFrame列中提取一个包含列名的字符串和一个包含数据的DataFrame。如何构建下面的f和g？其他方法也很受欢迎。julia> df = DataFrame("x (in)" => 1:3, "y (°C)" => 4:6) Row │ x (in) y (°C

浏览 28提问于2021-09-24得票数 2

回答已采纳

1回答

Spark 2 Python重命名列并设置列数据类型

、、

我使用DataFrame读入HDFS文件，并使用正则表达式提取数据。是否可以在不单独重命名或转换列的情况下重新定义DataFrame的模式？我的计划是将DataFrame转换为RDD，然后使用模式将RDD转换回DataFrame。我不确定这是不是一个好主意。

浏览 4提问于2018-08-06得票数 0

回答已采纳

3回答

如何从dataframe名称中提取信息并基于该名称创建列

、

下面是一些表示我拥有的数据的模拟数据： var1 = c('a', 'bvar1 = c('a', 'b', 'c', 'd', 'e'),我需要在每个数据帧中添加一个列，该

浏览 1提问于2020-07-06得票数 1

回答已采纳

1回答

我有一个问题，正则表达式提取与多个匹配

我正在尝试从字符串"60毫升的扑热息痛和0.5毫升的XYZ“中提取60毫升和0.5毫升。此字符串是spark dataframe中列X的一部分。虽然我能够在正则表达式验证器中测试我的正则表达式代码来提取60ML和0.5ML，但我不能使用regexp_extract来提取它，因为它只针对第一个匹配。因此我只得到了60毫升。你能给我推荐使用UDF的最好的方法吗？

浏览 13提问于2019-02-09得票数 3

回答已采纳

1回答

如何通过正则表达式删除基于相同索引的唯一字符

、、

在学习的过程中，其中一个问题是在哪里使用正则表达式来提取值。我想知道，如果在每一行中都相同并且匹配相同的索引位置，我们如何实现正则表达式来删除所有字符。下面是DataFrame： print(df)0 [b,e,c]2 [a,b,c] 正则表达式： df.column1.str.extract(r'(\w,\w)') column1 0 b,

浏览 22提问于2021-08-18得票数 1

回答已采纳

1回答

如何使用正则表达式从DataFrame中提取数据？

、、

我正在尝试更正DataFrame中的数据，但面临着值替换问题。原始值以“31^”或"54_“的格式出现，我需要它以整数的格式出现，例如31.54 frame = pd.DataFrame({'first': [123, '32^'], 'second': [23,

浏览 75提问于2021-11-17得票数 0

回答已采纳

2回答

熊猫，str.extract多重表达错误- ValueError:错误的项目数通过5，放置意味着1

、、、、

我使用熊猫str.extract方法，并在模式中使用了多个正则表达式。str.extract似乎不喜欢多个正则表达式。我如何使用‘或’与提取？以下是有关数据的摘录：13/01/2020 - AM06/01/2020 -\r10/01/202002/12/2019

浏览 3提问于2020-01-04得票数 1

1回答

使用Python中的正则表达式提取产品代码并应用于列

、

我有一个包含多个列的pd.DataFrame，其中一个列具有从web中提取的url，例如：我使用正则表达式提取产品代码，如下所示但是，如果我尝试复制到整个数据集(其中有多个列)

浏览 0提问于2018-11-19得票数 0

2回答

在Python中的数据帧行中提取regex匹配而不是组

、、

我是一个编码新手，我通常使用R来实现这一点(stringr)，但我开始学习Python的语法。我想根据regex模式在数据框架中生成第二列，其中只包含第一列中的一些单词。,columns=['Test']) 现在，为了提取我想要的(大写词)，在R中，我通常使用： df <- str_ex

浏览 1提问于2019-04-22得票数 1

回答已采纳

4回答

使用regex将URL提取到新的数据帧列中。

、、

我想使用regex从dataframe中的文本中提取所有URL到一个新列中。我有一些较旧的代码，用于提取关键字，因此我希望将代码调整为正则表达式。我想将正则表达式保存为字符串变量，并在这里应用： data$ContentURL <- apply(sapply(regex, grepl, data$Content, fixed=FALSE), 1,function(x) paste(selection[x], collapse=&

浏览 6提问于2014-10-21得票数 6

回答已采纳

1回答

正则表达式在import.io中不执行任何操作

我正在尝试弄清楚如何在import.io上使用正则表达式。我有一个HTML列，成功地从网页上的链接拉取数据。我只想提取链接上的查询字符串的一部分，所以我转到regexp字段并输入一个正则表达式，该正则表达式在regex101.com上测试成功。问题是，提取的数据根本不会改变。实际上，我可以在regexp字段中输入完全胡言乱语，这对提取的数据完全没有影响。我有点困惑

浏览 0提问于2015-10-07得票数 0

1回答

在python中只提取年份而不是日期

请有人用代码帮助只提取年份，并将其设置为数据中的一个新列，使用上面所附照片中的python。当我尝试时，结果没有一致性，它给了我不同的值。它同时提取年份和日期，而不仅仅是年份。我认为今年是第二个角色。我使用了不同的代码，但它不起作用。我试过使用下面的代码 df_movies['

浏览 0提问于2022-12-01得票数 0

1回答

基于不同列的过滤器从Pandas DataFrame中提取文本

、、

我想创建一个名为"my_new_col“的新列，它只在State列= "Idaho”时才从"Text“列中提取单词"Lime”。Oregon","Idaho","Oregon"], 'Text': ["Lime Light","New Egg","Lime Inc","Monteray","NovaDing"]} df = pd.DataFra

浏览 20提问于2021-02-10得票数 0

回答已采纳

1回答

一个起始词和多个结束词之间的Pandas DataFrame提取

、、

我想编写一个正则表达式，使用str.extract从Pandas DataFrame中提取模式，该表达式提取在开始单词和以两个可能的结束单词之一结束的模式之间找到的第一个匹配。如果末尾只有一个停用词，如示例1所示，则str.extract中的以下正则表达式有效。但是我如何组合两个停用的单词呢？ R‘(？s)开始(.*？)STOP\s+WORD’

浏览 16提问于2021-07-17得票数 1

回答已采纳

1回答

如何将所有从网站抓取的数据保存在pandas数据帧中？

、、、

我已经写了一个代码，从网页抓取联系信息使用BeautifulSoup和一个预先设计的库CommonRegex，这基本上是正则表达式刮美国地址information.While我能够提取的信息是在一个列表的形式，并将其转换为熊猫数据帧，我不能保存在一个列表中存在的所有值。df.phones(link.get_text()) for i in df1: dfr = pd.DataFram

浏览 8提问于2020-04-23得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将新列添加到Pandas DataFrame，并用来自同一df的另一列中的第一个单词填充

如果regex不能匹配，如何返回null？

python使用regex创建新列

用于清除名称的正则表达式

将数据分割成几个数据

如何在Julia中从单列DataFrame中提取column_name字符串和数据向量？

Spark 2 Python重命名列并设置列数据类型

如何从dataframe名称中提取信息并基于该名称创建列

我有一个问题，正则表达式提取与多个匹配

如何通过正则表达式删除基于相同索引的唯一字符

如何使用正则表达式从DataFrame中提取数据？

熊猫，str.extract多重表达错误- ValueError:错误的项目数通过5，放置意味着1

使用Python中的正则表达式提取产品代码并应用于列

在Python中的数据帧行中提取regex匹配而不是组

使用regex将URL提取到新的数据帧列中。

正则表达式在import.io中不执行任何操作

在python中只提取年份而不是日期

基于不同列的过滤器从Pandas DataFrame中提取文本

一个起始词和多个结束词之间的Pandas DataFrame提取

如何将所有从网站抓取的数据保存在pandas数据帧中？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐