爬虫课堂（十八）|编写Spider之使用Selector提取数据

黄小怪

发布于 2018-05-21 17:34:59

1.2K0

发布于 2018-05-21 17:34:59

文章被收录于专栏：小怪聊职场

上个章节说到从Spider的角度来看，爬取的运行流程如下循环：

以初始的URL初始化Request，并设置回调函数。当该Request下载完毕并返回时，将生成Response，并作为参数传给该回调函数。
在回调函数内分析返回的（网页）内容，返回Item对象或者Request或者一个包括二者的可迭代容器。返回的Request对象之后会经过Scrapy处理，下载相应的内容，并调用设置的callback函数（函数可相同）。
在回调函数内，可以使用选择器(Selectors) 来分析网页内容，并根据分析的数据生成Item。
最后，由Spider返回的Item将被存到数据库或存入到文件中。

可以看出来使用Selector来分析提取网页内容是在编写Spider中必不可少，同时也是最重要的工作之一，这一章节我们就来学习使用Selector如何提取网页数据。

一、选择器（Selectors）介绍

当抓取网页时，做的最常见的任务是从HTML源码中提取数据。在Python中常用以下库处理这类问题：

BeautifulSoup BeautifulSoup是在程序员间非常流行的网页分析库，它基于HTML代码的结构来构造一个Python对象，对不良标记的处理也非常合理，API简洁易用，但解析速度较慢。
lxml lxml是一个基于 ElementTree (不是Python标准库的一部分)的Python化的XML解析库（也可以解析HTML），它解析速度较快，API较复杂。

Scrapy结合上面两者优点自己实现了提取数据的一套机制，它们被称作选择器（seletors）。Scrapy选择器构建于 lxml 库之上，并简化了API接口。

Scrapy选择器包括XPath和CSS两种。XPath是一门用来在XML文件中选择节点的语言，也可以用在HTML上。CSS 是一门将HTML文档样式化的语言。

二、XPath选择器介绍及使用

关于XPath选择器的介绍和使用详见之前写的文章：爬虫课程（八）｜豆瓣：十分钟学会使用XPath选择器提取需要的元素值

三、CSS选择器介绍及使用

3.1、CSS选择器介绍

和XPath选择器比起来，CSS选择器的语法比XPath更简单一些，但功能不如XPath强大。相对来说，前端工程师可能会更加喜欢使用CSS选择器，同时它的使用方式跟写.css时方法基本一样。

CSS的基本语法如下表所示：

选择器	例子	例子描述
*	*	选择所有元素
#id	#container	选择id=“container”的所有元素
.class	.container	选择class=“container”的所有元素
element	p	选择所有 <p> 元素。
element,element	div,p	选择所有 <div> 元素和所有 <p> 元素
element element	li a	选择 <li> 元素内部的所有 <a> 元素
element>element	div>p	选择父元素为 <div> 元素的所有 <p> 元素
element element	div+p	选择紧接在 <div> 元素之后的所有 <p> 元素
attribute	target	选择带有 target 属性所有元素
attribute=value	target=_blank	选择 target="_blank" 的所有元素
attribute~=value	title~=flower	选择 title 属性包含单词 "flower" 的所有元素
attribute\|=value	lang\|=en	选择 lang 属性值以 "en" 开头的所有元素
:link	a:link	选择所有未被访问的链接
:first-child	p:first-child	选择属于父元素的第一个子元素的每个 <p> 元素
element1~element2	p~ul	选择前面有 <p> 元素的每个 <ul> 元素
attribute^=value	asrc^="https"	选择其 src 属性值以 "https" 开头的每个 <a> 元素
attribute$=value	asrc$=".pdf"	选择其 src 属性以 ".pdf" 结尾的所有 <a> 元素
attribute*=value	asrc*="abc"	选择其 src 属性中包含 "abc" 子串的每个 <a> 元素
:empty	p:empty	选择没有子元素的每个 <p> 元素（包括文本节点）
:nth-child(n)	p:nth-child(2)	选择属于其父元素的第二个子元素的每个 <p> 元素
:nth-last-child(n)	p:nth-last-child(2)	同上，从最后一个子元素开始计数
::text	p::text	选择<P>元素的文本节点（Text Node）