开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >使用正则表达式分离和提取URL字符串的一部分？

问使用正则表达式分离和提取URL字符串的一部分？
EN

Stack Overflow用户

提问于 2019-10-10 16:55:59

回答 1查看 23关注 0票数 0

我有一个变量为url的df。url中的每个url字符串在URL字符串中都有一个唯一的六个字符的字母数字ID。我一直在尝试提取每个字符串的特定部分，即所有urls中的article_id，然后将其作为新变量添加到df中。

例如，xwpd7w是https://www.vice.com/en_us/article/xwpd7w/how-a-brooklyn-gang-may-have-gotten-crazy-rich-dealing-for-el-chapo的article_id

如何根据urls在/article/旁边的位置从df中的所有urls中提取article_ids？使用任何方法，是否使用正则表达式？

到目前为止，我已经完成了以下工作：

df.url.str.split()

ex output: [https://www.vice.com/en_au/article/j539yy/smo...

df['cutcurls'] = df.url.str.join(sep=' ')
ex output: h t t p s : / / w w w . v i c e . c o m / e n

有什么想法吗？

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-10-10 17:27:05

应用"str.extract“方法。

df=pd.DataFrame({"url":["https://www.vice.com/en_us/article/xwpd7w/how-a-brooklyn-gang-may-have-gotten-crazy-rich-dealing-for-el-chapo","https://www.www.www//en_us/article/idId2019/buzzwords"]}) 

df["articel_id"]= df.url.str.extract(r"/article/([^/]+)")

    Out:
        url articel_id
        0  https://www.vice.com/en_us/article/xwpd7w/how-...     xwpd7w
        1  https://www.www.www//en_us/article/idId2019/bu...   idId2019

(^/+)：分组连续的非'/‘字符

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58327734

复制

相关文章

python提取url

import urllib2 str1='<a title="xxxx" target="_blank" href="http://xxxx.html">xxxx</a>' href=str1.find(r'href') url=str1.find(r'.html')

py3study

2020/01/10

1.4K0

jmeter正则表达式提取器提取特定字符串后的全部内容

正则表达式 jdbc

jmeter进行JDBC请求时，请求后的响应结果在传递给下一个请求使用时，需要用到关联，也在jmeter中，关联通过正则表达式提取器实现。

流柯

2018/08/31

3.6K0

jmeter正则表达式提取器提取特定字符串后的全部内容

jmeter的正则表达式提取器_jmeter正则提取器的使用

java https 网络安全正则表达式

首先，先在正则表示式提取器里面添加我们找到的左右边界然后写好正则表达式最后确定边界是唯一的

全栈程序员站长

2022/10/02

8530

jmeter的正则表达式提取器_jmeter正则提取器的使用

用正则表达式查找提取替换字符串

正则表达式 api regex javascript 编程算法

C++11标准支持正则表达式后，使用正则表达式查找、提取、替换字符串就无需使用第三方开源库。

gaigai

2019/10/21

4.6K0

用正则表达式查找提取替换字符串

jmeter的正则表达式提取器_正则表达式提取

正则表达式编程算法 html apache

在一个线程组中，B请求需要使用A请求返回的数据，也就是常说的关联，将上一个请求的响应结果作为下一个请求的参数，则需要对A请求的响应报文使用后置处理器，其中最方便最常用的就是正则表达式提取器了。

全栈程序员站长

2022/10/01

4.1K0

jmeter的正则表达式提取器_正则表达式提取

【正则表达式】从字符串中提取数字

正则表达式编程算法

使用正则表达式，用法如下： ## 总结 ## ^ 匹配字符串的开始。 ## $ 匹配字符串的结尾。 ## \b 匹配一个单词的边界。 ## \d 匹配任意数字。 ## \D 匹配任意非数字字符。 #

蛮三刀酱

2019/09/10

6.4K0

python提取页面内的url列表

python提取页面内的url列表 from bs4 import BeautifulSoup import time,re,urllib2 t=time.time() websiteurls={} def scanpage(url): websiteurl=url t=time.time() n=0 html=urllib2.urlopen(websiteurl).read() soup=BeautifulSoup(html) pageurls=[] Upageurls={} pageurls=soup

艳艳代码杂货店

2021/11/01

8430

38 - 提取HTML页面中的URL

# 提取HTML 页面中所有的url，要求，这些url 都属于a 节点的href 属性 ''' 1. 分析a节点的正则表达式 2. 利用分组提出href属性的值（url） ''' import re s = '<a href="https://geekori.com">极客起源</a> <a href="https://www.baidu.com">百度一下</a>' result = re.findall('<a[^>]*href="([^>]*)">', s, re.I) print(resul

ruochen

2021/05/25

2.3K0

38 - 提取HTML页面中的URL

python提取页面内的url列表

python提取页面内的url列表 from bs4 import BeautifulSoup import time,re,urllib2 t=time.time() websiteurls={} def scanpage(url): websiteurl=url t=time.time() n=0 html=urllib2.urlopen(websiteurl).read() soup=BeautifulSoup(html) pageurls=[] Upageurls={} pageurls=soup

代码伴一生

2021/11/01

8380

使用Python正则表达式提取字幕

正则表达式

前几天在Python铂金交流群粉丝【有点意思】问了一道正则表达式处理的问题，如下图所示。

前端皮皮

2022/08/17

9290

使用Python正则表达式提取字幕

js正则截取指定字符串_java正则表达式提取字符串

javascript linux 正则表达式 https 网络安全

1 javascript 正则对象创建和用法声明javascript 正则表达式

全栈程序员站长

2022/11/05

2.2K0

使用grep和sed正则表达式从日志中提取信息

正则表达式 linux 其他

有时候在做简易日志分析的时候，需要从特定的日志记录中提取特定的信息信息提取假如有如下错误日志，我们需要提取shopId和orderNo {"@message":"[2021-08-04 00:10:00.756][scheduling-1][ERROR][ProfitSharingCrontabManager:235][maibao-transaction][b0dab5d4eaa9e063]: fail to request profit sharing: order[ProfitSharingFi

十毛

2022/01/12

1.1K0

【前端】提取URL中的各个GET参数

get url 程序前端字符串

zhaokang555

2023/10/17

2290

字符串提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

喜欢ctrl的cxk

2019/11/08

6540

正则提取字符串中的数字_正则表达式忽略空格python

编程算法正则表达式 https python 网络安全

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

全栈程序员站长

2022/11/10

3.3K0

正则提取字符串中的数字_正则表达式忽略空格python

jmeter正则提取器的使用_java正则表达式用法

正则表达式 java https html apache

一、正则表达式提取器各名词解（1）Apply to Main sample and sub-samples（作用于主节点的取样器及对应子节点的取样器） Main sample only（仅作用于主节点的取样器） Sub-samples only（仅作用于子节点的取样器） Jmeter-Variable Name to use（作用于jmeter变量(输入框内可输入jmeter的变量名称)，从指定变量值中提取需要的值）

全栈程序员站长

2022/09/30

5230

jmeter正则提取器的使用_java正则表达式用法

学习正则表达式 - 提取和替换 XML 标签

xml 正则表达式函数字符串标签

使用 lorem.dita 作为示例 XML 文档，通过正则表达式提取出该文档中的所有 XML 标签，并转换为简单的 XSLT 样式表。可以在 Github 中找到 lorem.dita 文件，地址是https://github.com/michaeljamesfitzgerald/Introducing-Regular-Expressions。为了节省篇幅，节选部分文本作为测试数据。

用户1148526

2023/10/14

7890

linux shell:提取正则表达式捕获组(catch group)匹配的字符串

bash shell bash 指令 linux 编程算法

目前大部分shell(如bash)都提供了正则表达式判断操作符=~,如下就可以对一个字符符判断是否匹配正则表达式：

10km

2021/12/04

4.7K0

JS-提取字符串—>>普通方法VS正则表达式

正则表达式 express javascript

如下：“23nr qreq2 34fq4 4454gsr 45” 【将这一串字符中的数字挑出来，当然人家作伴的不能被分开】。一、普通方法： 1 <script type="text/javascript"> 2 var str = "23nr qreq2 34fq4 4454gsr 45"; 3 var tep = ""; 4 var arr= []; 5 for(var i=0;i<str.leng

xing.org1^

2018/05/17

1.9K0

点击加载更多

相似问题

使用java正则表达式提取URL的一部分

30

从url查询字符串参数中提取分离值。

10

使用提取和/或分离将变量字符串从dataframe分离出来

10

提取和分离数字

10

使用regex和stringr提取URL的最后一部分

23

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例