为了获取到一个html文件中的两个数据,以下使用python的 re 模块进行数据抓取。
Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。具体参考:http://www.runoob.com/python/python-reg-expressions.html
下图是网页源码:
以下是python源码:
# coding: utf-8
import re
import codecs
path = 'xxxxxx'
regex_str_suc = ">(\d+)\/"
with codecs.open(path, "r",encoding='utf-8', errors='ignore') as fdata:
comtent = fdata.read()
result_suc = re.findall(regex_str_suc, comtent)[0]
print result_suc
regex_str_suc 是我的正则表达式,()中是我要获取的内容,\d+ 代表要获取的是一段数字。这样就可以拿到我要取的数据了。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有