前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >38 - 提取HTML页面中的URL

38 - 提取HTML页面中的URL

原创
作者头像
ruochen
修改2021-05-25 14:22:38
修改2021-05-25 14:22:38
2.3K0
举报
代码语言:txt
复制
# 提取HTML 页面中所有的url,要求,这些url 都属于a 节点的href 属性

'''
1. 分析a节点的正则表达式
2. 利用分组提出href属性的值(url)
'''

import re

s = '<a href="https://geekori.com">极客起源</a> <a href="https://www.baidu.com">百度一下</a>'

result = re.findall('<a[^>]*href="([^>]*)">', s, re.I)
print(result)

for url in result:
    print(url)
代码语言:txt
复制
['https://geekori.com', 'https://www.baidu.com']
代码语言:txt
复制
https://geekori.com
代码语言:txt
复制
https://www.baidu.com

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档