Python爬虫基本介绍

文章来源：企鹅号 - 帕森与加瓦

1.什么是爬虫

爬虫是按照一定规则，自动对互联网上的数据进行抓取的程序或脚本。分为通用爬虫和聚焦爬虫。

2.通用爬虫

通用爬虫是搜索引擎抓取系统（如百度，谷歌等）的重要组成部分。主要功能是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

搜索引擎爬虫的基本工作流程如下：

选取一部分URL，将这些URL放到待抓取URL队列

取出待抓取URL队列中的URL，将URL对应的网页下载下来，存储到网页库，并将这些URL放入已抓取URL队列

对已抓取URL队列中URL页面进行分析，得到其中的其他URL，将其放入待抓取URL队列，回到第2步继续执行

搜索引擎如何获得新网站的URL：

新网站向搜索引擎主动提交网址，百度链接提交地址：http://www.baidu.com/search/url_submit.html

在其他网站上添加自己的新网站URL，当搜索引擎爬虫对其他网站进行爬取时，会自动获取你的新网站URL，并对其进行爬取

搜索引擎和DNS解析服务商进行合作，如果你的新网站有域名，那么将会被搜索引擎迅速抓取

搜索引擎不能处理图片、视频、Flash等非文字内容，也不能执行脚本和程序

3.聚焦爬虫

聚焦爬虫：从互联网上抓取数据，并对内容进行处理筛选

4.爬虫的抓取过程：

确定需要爬取的网站或内容

模拟浏览器发送http请求，获取服务器响应数据

对数据进行筛选，取出需要的数据

对数据进行处理，存储或使用

5.爬虫基础学习需要掌握的技术：

Python的基础语法，HTML基础，HTTP协议基础

HTML页面抓取：

urllib、urllib2、requests：模拟浏览器发送http请求，获取服务器响应结果

HTML页面数据处理：

re、xpath、BeautifulSoup4、jsonPath：对数据进行筛选，取出需要的数据

注：以上知识点会在接下来的爬虫系列一一介绍，在完全掌握了以上知识点后，则可以使用爬虫对互联网上的数据进行抓取和处理。

相关快讯