首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫之个人笔记(一):URL地址和HTTP协议

本文简单介绍了爬虫所需的基本知识,包括url地址和http协议,以及如何在Chrome浏览器中找到请求头、请求体、cookie等参数。

所需工具:Chrome浏览器(更多工具——>开发者工具——>Network /// 或在Chrome中右键点击检查,点击Network)

爬虫的一般定义:模拟用户在客户端或浏览器发送网络请求,并按规则提取数据的程序

常见的爬虫应用:

1、展示在网页或APP上,如百度等搜索引擎

2、进行数据分析,掌握规律

URL地址

URL是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的组成:请求的协议http或https + 网站的域名 + 资源的路径 + 参数(一般以?开头,以&隔开,含=) ,其中%是编码后的信息,可用url解码工具进行解码

(1)浏览器请求url地址的响应内容:当前url对应的响应 + js + css + 图片——>对应于elements中的内容(在页面上右键,点击“检查”)

(2)爬虫请求url地址的响应内容:当前url对应的响应

综上,elements的内容和爬虫获取到的url地址的响应不同,爬虫中需要以当前url地址对应的响应为准提取数据。

当前url地址对应的响应在哪里:

(1)从network中找到当前的url地址,点击Response

(2)在页面上右键,点击“显示网页源代码”(是重新发送一次请求,如果网页内容更新快的话(如贴吧),两次请求前后获取的会不一样)

HTTP和HTTPS协议

http:超文本传输协议(明文传输,效率高,不安全)

https:HTTP+SSL(安全套接字层)(传输数据之前加密,之后解密,效率较低,但安全)

http协议之请求

1、请求行

最开始GET 开头的一串,GET表示请求方式,后面跟的是请求参数、HTTP协议及版本号(有get请求和post请求两种)

2、请求头Request Headers

Network——>点击url地址——>点击headers:找到Request Headers,点击view source。重点关注以下两个内容:

(1)User-Agent用户代理:对方服务器能够通过user_agent知道当前请求对方资源的是否是浏览器/是什么浏览器

最左上方有个“toggle device toolbar”的按钮,可以切换发送请求的设备类型,可由电脑浏览器切换为模拟的手机浏览器(并可选择不同的手机设备类型),相应的user_agent里显示的内容也会改为相应的手机设备类型。

(2)Cookie:浏览器用来存储用户信息的,将必要的用户信息(如账户信息、登录信息等)保存在本地。每次请求都会被携带上发送给对方的浏览器。对方的服务器会通过Cookie来判断我们是否是一个爬虫。

3、请求体Form data

get没有请求体:get请求把参数放在url地址中,所以没有请求体。

post才有请求体:(1)post请求常用于登录注册(2)post请求携带的数据量比get请求的大、多,常用于传输大文本。所以,post请求把参数放在请求体中,用来携带数据。

http协议之响应

1、响应头Response Headers——>view source

Set_cookie:对方服务器通过该字段设置cookie到本地

另:点击Cookies,看到分为两部分,分别是Request Cookies和Response Cookies。关注name和value即可

2、响应体

url地址对应的响应

如果觉得内容不错,记得点“

好看

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190217G0OTB200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券