本篇主要介绍简单爬虫,爬取网页,保存到本地。
1、爬虫基本流程
1.1、发起请求
Python使用http库向要爬取的目标网站发起请求,即发送一个Request
Request包含:请求头、请求体等
1.2、获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等
1.3、解析内容
通过相应的库,解析对应的数据
解析方式:通过正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等、json库
1.4、保存数据
把数据保存到本地文件、本地数据库等。
2、爬取百度首页
使用的三方库为urllib,我这边直接安装的是urllib3
示例:
这样就可以把百度首页爬取下来,保存到本地。
3、完整版代码
利用我们之前学过的知识,完整版代码如下:
3.1 先封装一个类
先在文件下创建一个worm工程的文件夹,创建一个htmldownload.py文件
这个类下面有一个downLoad方法,可以返回html内容。
3.2 引入类方法
领取专属 10元无门槛券
私享最新 技术干货