本章主要是讲爬虫的基本流程,首先我们来看一下HTTP协议以及我们这个请求头的 介绍,我们先来看一下它的一些步骤,就关于我们这个网络通信的,那么首先大家知道 我们这个电脑,浏览器它是什么呢,他就是我们一般是什么访问网站的话,它会有一个 URL码,比如说我们的百度WWW. baidu.com,他的话实际上是一个域名,那么这里的话 他会有一个DNS服务器,服务器,这个DNS服务器它是我们这个IP地址的标注服务器,那 比如说我们刚才是WWW. baidu.com ,它实际上,会有一个什么会转换成一个,比如说 1.1.1.1,这个IP地址有点类似于现实生活中的一个经纬度一样。
浏览器它给服务器发送的是这个域名,WWW. baidu.com,那么DNS的话呢,它会把 它转换成这个IP地址,首先我们这一个DNS服务器他会返回IP地址,就是那个域名对应的 IP地址给这个浏览器,然后呢,我们这个浏览器拿到了这一个IP地址以后,他会去访问 我们这个服务器,访问服务器返回响应,服务器通常返回给我们响应数据,还包括一些 其他不同的数据,像页面的话,一般就包括什么HTML/css/js/jpg等等。
返回的数据就是这一些等等还有其他的,只是举个例子,所以这个的话呢,实际上就
是它的一个步骤,这个网络通讯的步骤,实际上像我们刚刚讲的这个百度首页,就是打开
百度以后,百度首页它里面的话,我们看上去就是一个页面,完整的页面有,导航、有背
景、有logo以及有搜索框等一些内容,那它实际上的话是有什么,实际上是由很多部分组
成起来的,像我们这个HTML,它里面就会有一些文本信息,就是我们这个文本值。
第二个是CSS,CSS里面它就是一些样式,就控制我们这一个文字大小、颜色等,那么
还有一个js,它相当于一个行为,就相当于人的思想一样,你的思想是什么他的行为就是什
么,包括这一个什么鼠标点击这种事件,就像它会产生一些相对的效果,那还有刚刚之前
说的是什么JPG,他就是什么图片吗,当然图片的话呢,它还有其他格式,比如说png这一
些,所以这个的话,我们看上去就是一个页面,实际上它是有很多部分组成起来的.
复制代码
通信请求
网络通信他的实际原理就是我们一开始去发送请求的时候,他会给一个东西,那么像
我们一个请求,他只能对应一个数据包,数据包就相当于一个文件,就一个请求对一个数
据包,那么就好比我们之前的这个什么www baidu.com这个请求,他实际上呢,就只能获
取到一个数据包,只能获取到什么HTML这些数据,那你像有一些的,它是不包括这一些图
片的,像这些什么JPG,或者是CSS是不包括的,他就是一个对应一个数据包,我们之后如
果说去抓包的时候,他可能会有很多个数据包,比如说像有一些的是什么HTML,有些是CSS,
有些什么js,就这些数据包的话呢,共同组成了这个页面,或者说整个网站。
复制代码
网站响应
那么我们每发送一次请求的话呢,URL可能就会不一样,所以这里的话就是我们这一个
网络通信的,实际原理大家注意一下,你像有一些,如果说我们缺少了一部分,那比如说我
们这个响应内容把它复制过来,详细内容里面,他可能会缺少一些东西,你像我对这一个,
Www baidu.com发送请求,然后就到了响应内容,他可能会缺少一些东西,那么有一些缺少
的部分东西浏览器它会自动去发送请求,把它填充完整,最终呢,他可能会组成一个完整的
好看的百度首页,那你像有一些的话,他可能不会自动补全,他缺少的文件,它不会自动去
填充好,那么这里的话就是我们这个网络通信的步骤。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有