Python 爬虫之 Request +re

Wu_Candy

发布于 2023-09-02 12:40:55

3460

文章被收录于专栏：无量测试之道无量测试之道

什么是爬虫？

它是指向网站发起请求，获取资源后分析并提取有用数据的程序；

爬虫的步骤：

1、发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

2、获取响应内容

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

3、解析内容

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据：以wb的方式写入文件

4、保存数据

数据库（MySQL，Mongdb、Redis）文件

废话不多说，直接上代码截图(本文以抓取猫眼网站电影数据为示例)：

以下是执行后输出的结果：

备注：代码截图中有详细的注释信息，所以不在文中再来说明代码中的用法。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-08-18，如有侵权请联系 cloudcommunity@tencent.com 删除

python

本文分享自无量测试之道微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

Python 爬虫之 Request +re

Python 爬虫之 Request +re

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐