简单来说三大步:
1、浏览器发出请求
2,、服务器做出响应
3、浏览器接收响应
具体来说:首先浏览器判断你输入的网址url是否合法有效。url中的host定位到互联网上的一台服务器,它可以使一个ip地址,但通常是我们所说的域名。大型爬虫需要维护自己的dns缓存。浏览器获得网站服务器ip地址,发送请求,爬虫需要关心http协议的headers。服务器验证浏览器信息之后返回浏览器请求数据html。如果看到我们想要的数据而html中没有,那就是浏览器通过ajax请求异步加载了那部分数据。
领取专属 10元无门槛券
私享最新 技术干货