1.什么是爬虫
爬虫是按照一定规则,自动对互联网上的数据进行抓取的程序或脚本。分为通用爬虫和聚焦爬虫。
2.通用爬虫
通用爬虫是搜索引擎抓取系统(如百度,谷歌等)的重要组成部分。主要功能是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
搜索引擎爬虫的基本工作流程如下:
选取一部分URL,将这些URL放到待抓取URL队列
取出待抓取URL队列中的URL,将URL对应的网页下载下来,存储到网页库,并将这些URL放入已抓取URL队列
对已抓取URL队列中URL页面进行分析,得到其中的其他URL,将其放入待抓取URL队列,回到第2步继续执行
搜索引擎如何获得新网站的URL:
新网站向搜索引擎主动提交网址,百度链接提交地址:http://www.baidu.com/search/url_submit.html
在其他网站上添加自己的新网站URL,当搜索引擎爬虫对其他网站进行爬取时,会自动获取你的新网站URL,并对其进行爬取
搜索引擎和DNS解析服务商进行合作,如果你的新网站有域名,那么将会被搜索引擎迅速抓取
搜索引擎不能处理图片、视频、Flash等非文字内容,也不能执行脚本和程序
3.聚焦爬虫
聚焦爬虫:从互联网上抓取数据,并对内容进行处理筛选
4.爬虫的抓取过程:
确定需要爬取的网站或内容
模拟浏览器发送http请求,获取服务器响应数据
对数据进行筛选,取出需要的数据
对数据进行处理,存储或使用
5.爬虫基础学习需要掌握的技术:
Python的基础语法,HTML基础,HTTP协议基础
HTML页面抓取:
urllib、urllib2、requests:模拟浏览器发送http请求,获取服务器响应结果
HTML页面数据处理:
re、xpath、BeautifulSoup4、jsonPath:对数据进行筛选,取出需要的数据
注:以上知识点会在接下来的爬虫系列一一介绍,在完全掌握了以上知识点后,则可以使用爬虫对互联网上的数据进行抓取和处理。
领取专属 10元无门槛券
私享最新 技术干货