前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >利用爬虫爬取网页连接

利用爬虫爬取网页连接

作者头像
算法与编程之美
发布2023-08-22 14:33:06
2040
发布2023-08-22 14:33:06
举报
文章被收录于专栏:算法与编程之美

1 问题

如何利用爬虫技术定向爬取网页连接?

2 方法

利用爬虫技术,通过实验、实践等证明提出的方法是有效的,是能够解决开头提出的问题。

代码清单 1

import requestsimport reheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}html = requests.get('https://www.nowcoder.com/tutorial/10004/1ed5d0cdb1f74e89a6d7efba82344dbb',headers = headers)giao = html.content.decode()goudai = re.findall(r'<dd class="sub-menu-underway">\s*<a href="(.*?)">\s*<i class="ico-menu ico-menu-play"></i><span\s*class="cont">(.*?)</span></a>',giao,re.S)links = ['https://www.nowcoder.com' + url[0] for url in goudai]title = [title[1] for title in goudai]print(links + title)

3 结语

针对如何定向获取网页连接问题,提出利用爬虫技术方法,通过实验,证明该方法是有效的。当前只能定向爬取到一个网页链接,不能实现爬取多个网页链接和不定向爬取数据。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法与编程之美 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档