首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫入门(一)

Level1的爬虫就最基础的爬虫

1.1 爬取PDF(Version 1)

工具:requests

目标Url:http://home.ustc.edu.cn/~wcb/MMC/experiment/windows_socket.pdf

一共有5行代码,是一共非常小的爬虫。

requests.get(url)是获取这个url的页面。后面是.pdf。说明这是一个pdf文件。

res.content 就是得到目标页面的二进制信息。

正是因为如此,所以在一开始写入文件流,用的是模式。

下载结果就是在运行代码下面出现windows_socket.pdf这样的一个文件。

1.2 爬取图片(Version 1)

这个跟上面的代码几乎一样。操作的方法也是一样的。只是用的url还有写文件的时候文件名变了而已

1.3 爬取百度首页代码(Version 1)

工具:requests

Level1后记

Level1,只用了requests库,这可以说是python爬虫中最简单的两个实例了。

requests.get(url)返回的是一个response对象。

通过这个对象的content属性,可以获取到这个网页的二进制数据。通过这个方法,获得了图片和类似于图片的pdf。

通过这个对象的text属性,可以获取到这个网页的html格式文件。这个非常重要,静态网页的爬取就需要以这个作为开端进行。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180309G1H5VA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券