Level1的爬虫就最基础的爬虫
1.1 爬取PDF(Version 1)
工具:requests
目标Url:http://home.ustc.edu.cn/~wcb/MMC/experiment/windows_socket.pdf
一共有5行代码,是一共非常小的爬虫。
requests.get(url)是获取这个url的页面。后面是.pdf。说明这是一个pdf文件。
res.content 就是得到目标页面的二进制信息。
正是因为如此,所以在一开始写入文件流,用的是模式。
下载结果就是在运行代码下面出现windows_socket.pdf这样的一个文件。
1.2 爬取图片(Version 1)
这个跟上面的代码几乎一样。操作的方法也是一样的。只是用的url还有写文件的时候文件名变了而已
1.3 爬取百度首页代码(Version 1)
工具:requests
Level1后记
Level1,只用了requests库,这可以说是python爬虫中最简单的两个实例了。
requests.get(url)返回的是一个response对象。
通过这个对象的content属性,可以获取到这个网页的二进制数据。通过这个方法,获得了图片和类似于图片的pdf。
通过这个对象的text属性,可以获取到这个网页的html格式文件。这个非常重要,静态网页的爬取就需要以这个作为开端进行。
领取专属 10元无门槛券
私享最新 技术干货