首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >使用正则表达式分离和提取URL字符串的一部分?

使用正则表达式分离和提取URL字符串的一部分?
EN

Stack Overflow用户
提问于 2019-10-10 16:55:59
回答 1查看 23关注 0票数 0

我有一个变量为urldfurl中的每个url字符串在URL字符串中都有一个唯一的六个字符的字母数字ID。我一直在尝试提取每个字符串的特定部分,即所有urls中的article_id,然后将其作为新变量添加到df中。

例如,xwpd7whttps://www.vice.com/en_us/article/xwpd7w/how-a-brooklyn-gang-may-have-gotten-crazy-rich-dealing-for-el-chapoarticle_id

如何根据urls在/article/旁边的位置从df中的所有urls中提取article_ids?使用任何方法,是否使用正则表达式?

到目前为止,我已经完成了以下工作:

代码语言:javascript
运行
AI代码解释
复制
df.url.str.split()

ex output: [https://www.vice.com/en_au/article/j539yy/smo...
代码语言:javascript
运行
AI代码解释
复制
df['cutcurls'] = df.url.str.join(sep=' ')
ex output: h t t p s : / / w w w . v i c e . c o m / e n

有什么想法吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-10-10 17:27:05

应用"str.extract“方法。

代码语言:javascript
运行
AI代码解释
复制
df=pd.DataFrame({"url":["https://www.vice.com/en_us/article/xwpd7w/how-a-brooklyn-gang-may-have-gotten-crazy-rich-dealing-for-el-chapo","https://www.www.www//en_us/article/idId2019/buzzwords"]}) 

df["articel_id"]= df.url.str.extract(r"/article/([^/]+)")

    Out:
        url articel_id
        0  https://www.vice.com/en_us/article/xwpd7w/how-...     xwpd7w
        1  https://www.www.www//en_us/article/idId2019/bu...   idId2019

(^/+):分组连续的非'/‘字符

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58327734

复制
相关文章
python提取url
import urllib2 str1='<a title="xxxx" target="_blank" href="http://xxxx.html">xxxx</a>' href=str1.find(r'href') url=str1.find(r'.html')
py3study
2020/01/10
1.4K0
jmeter正则表达式提取器提取特定字符串后的全部内容
jmeter进行JDBC请求时,请求后的响应结果在传递给下一个请求使用时,需要用到关联,也在jmeter中,关联通过正则表达式提取器实现。
流柯
2018/08/31
3.6K0
jmeter正则表达式提取器提取特定字符串后的全部内容
jmeter的正则表达式提取器_jmeter正则提取器的使用
首先,先在正则表示式提取器里面添加我们找到的左右边界 然后写好正则表达式 最后确定边界是唯一的
全栈程序员站长
2022/10/02
8530
jmeter的正则表达式提取器_jmeter正则提取器的使用
用正则表达式查找提取替换字符串
C++11标准支持正则表达式后,使用正则表达式查找、提取、替换字符串就无需使用第三方开源库。
gaigai
2019/10/21
4.6K0
用正则表达式查找提取替换字符串
jmeter的正则表达式提取器_正则表达式提取
在一个线程组中,B请求需要使用A请求返回的数据,也就是常说的关联,将上一个请求的响应结果作为下一个请求的参数,则需要对A请求的响应报文使用后置处理器,其中最方便最常用的就是正则表达式提取器了。
全栈程序员站长
2022/10/01
4.1K0
jmeter的正则表达式提取器_正则表达式提取
【正则表达式】从字符串中提取数字
使用正则表达式,用法如下: ## 总结 ## ^ 匹配字符串的开始。 ## $ 匹配字符串的结尾。 ## \b 匹配一个单词的边界。 ## \d 匹配任意数字。 ## \D 匹配任意非数字字符。 #
蛮三刀酱
2019/09/10
6.4K0
python提取页面内的url列表
python提取页面内的url列表 from bs4 import BeautifulSoup import time,re,urllib2 t=time.time() websiteurls={} def scanpage(url): websiteurl=url t=time.time() n=0 html=urllib2.urlopen(websiteurl).read() soup=BeautifulSoup(html) pageurls=[] Upageurls={} pageurls=soup
艳艳代码杂货店
2021/11/01
8430
38 - 提取HTML页面中的URL
# 提取HTML 页面中所有的url,要求,这些url 都属于a 节点的href 属性 ''' 1. 分析a节点的正则表达式 2. 利用分组提出href属性的值(url) ''' import re s = '<a href="https://geekori.com">极客起源</a> <a href="https://www.baidu.com">百度一下</a>' result = re.findall('<a[^>]*href="([^>]*)">', s, re.I) print(resul
ruochen
2021/05/25
2.3K0
38 - 提取HTML页面中的URL
python提取页面内的url列表
python提取页面内的url列表 from bs4 import BeautifulSoup import time,re,urllib2 t=time.time() websiteurls={} def scanpage(url): websiteurl=url t=time.time() n=0 html=urllib2.urlopen(websiteurl).read() soup=BeautifulSoup(html) pageurls=[] Upageurls={} pageurls=soup
代码伴一生
2021/11/01
8380
使用Python正则表达式提取字幕
前几天在Python铂金交流群粉丝【有点意思】问了一道正则表达式处理的问题,如下图所示。
前端皮皮
2022/08/17
9290
使用Python正则表达式提取字幕
js正则截取指定字符串_java正则表达式提取字符串
1 javascript 正则对象创建 和用法声明javascript 正则表达式
全栈程序员站长
2022/11/05
2.2K0
使用grep和sed正则表达式从日志中提取信息
有时候在做简易日志分析的时候,需要从特定的日志记录中提取特定的信息 信息提取 假如有如下错误日志,我们需要提取shopId和orderNo {"@message":"[2021-08-04 00:10:00.756][scheduling-1][ERROR][ProfitSharingCrontabManager:235][maibao-transaction][b0dab5d4eaa9e063]: fail to request profit sharing: order[ProfitSharingFi
十毛
2022/01/12
1.1K0
【前端】提取URL中的各个GET参数
zhaokang555
2023/10/17
2290
字符串提取
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
喜欢ctrl的cxk
2019/11/08
6540
正则提取字符串中的数字_正则表达式忽略空格python
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
全栈程序员站长
2022/11/10
3.3K0
正则提取字符串中的数字_正则表达式忽略空格python
jmeter正则提取器的使用_java正则表达式用法
一、正则表达式提取器各名词解 (1)Apply to Main sample and sub-samples( 作用于主节点的取样器及对应子节点的取样器) Main sample only( 仅作用于主节点的取样器) Sub-samples only( 仅作用于子节点的取样器) Jmeter-Variable Name to use( 作用于jmeter变量(输入框内可输入jmeter的变量名称),从指定变量值中提取需要的值)
全栈程序员站长
2022/09/30
5230
jmeter正则提取器的使用_java正则表达式用法
学习正则表达式 - 提取和替换 XML 标签
        使用 lorem.dita 作为示例 XML 文档,通过正则表达式提取出该文档中的所有 XML 标签,并转换为简单的 XSLT 样式表。可以在 Github 中找到 lorem.dita 文件,地址是https://github.com/michaeljamesfitzgerald/Introducing-Regular-Expressions。为了节省篇幅,节选部分文本作为测试数据。
用户1148526
2023/10/14
7890
linux shell:提取正则表达式捕获组(catch group)匹配的字符串
目前大部分shell(如bash)都提供了正则表达式判断操作符=~,如下就可以对一个字符符判断是否匹配正则表达式:
10km
2021/12/04
4.7K0
JS-提取字符串—>>普通方法VS正则表达式
如下:“23nr qreq2 34fq4 4454gsr 45” 【将这一串字符中的数字挑出来,当然人家作伴的不能被分开】。 一、普通方法: 1 <script type="text/javascript"> 2 var str = "23nr qreq2 34fq4 4454gsr 45"; 3 var tep = ""; 4 var arr= []; 5 for(var i=0;i<str.leng
xing.org1^
2018/05/17
1.9K0
点击加载更多

相似问题

使用java正则表达式提取URL的一部分

30

从url查询字符串参数中提取分离值。

10

使用提取和/或分离将变量字符串从dataframe分离出来

10

提取和分离数字

10

使用regex和stringr提取URL的最后一部分

23
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档