开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python使用标准库urllib模拟浏览器爬取网页内容

文章来源：企鹅号 - Python小屋

爬取网页内容的第一步是分析目标网站源代码结构，确定自己要爬取的内容在哪里，这要求对HTML代码有一定了解，对于某些网站内容的爬取还需要具有一定的Javascript基础。但是，如果目标网站设置了反爬机制，就需要一些特殊的手段了，本文介绍一种使用爬虫程序模拟浏览器来对抗反爬机制的简单用法。

以下面的网页为例，使用浏览器可以正常浏览，也可以正常查看网页源代码。

然而，使用Python去读取网页源代码时却显示403错误，禁止访问。

对抗这种反爬机制比较简单的方式是，添加UserAgent信息，让程序假装自己是浏览器。

发表于: 2018-08-292018-08-29 22:16:17
原文链接：https://kuaibao.qq.com/s/20180829B1WLY000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群