上个章节说到从Spider的角度来看,爬取的运行流程如下循环:
可以看出来使用Selector来分析提取网页内容是在编写Spider中必不可少,同时也是最重要的工作之一,这一章节我们就来学习使用Selector如何提取网页数据。
一、选择器(Selectors)介绍
当抓取网页时,做的最常见的任务是从HTML源码中提取数据。在Python中常用以下库处理这类问题:
Scrapy结合上面两者优点自己实现了提取数据的一套机制,它们被称作选择器(seletors)。Scrapy选择器构建于 lxml 库之上,并简化了API接口。
Scrapy选择器包括XPath和CSS两种。XPath是一门用来在XML文件中选择节点的语言,也可以用在HTML上。CSS 是一门将HTML文档样式化的语言。
二、XPath选择器介绍及使用
关于XPath选择器的介绍和使用详见之前写的文章:爬虫课程(八)|豆瓣:十分钟学会使用XPath选择器提取需要的元素值
三、CSS选择器介绍及使用
3.1、CSS选择器介绍
和XPath选择器比起来,CSS选择器的语法比XPath更简单一些,但功能不如XPath强大。相对来说,前端工程师可能会更加喜欢使用CSS选择器,同时它的使用方式跟写.css时方法基本一样。
CSS的基本语法如下表所示:
选择器 | 例子 | 例子描述 |
---|---|---|
* | * | 选择所有元素 |
#id | #container | 选择id=“container”的所有元素 |
.class | .container | 选择class=“container”的所有元素 |
element | p | 选择所有 <p> 元素。 |
element,element | div,p | 选择所有 <div> 元素和所有 <p> 元素 |
element element | li a | 选择 <li> 元素内部的所有 <a> 元素 |
element>element | div>p | 选择父元素为 <div> 元素的所有 <p> 元素 |
element element | div+p | 选择紧接在 <div> 元素之后的所有 <p> 元素 |
attribute | target | 选择带有 target 属性所有元素 |
attribute=value | target=_blank | 选择 target="_blank" 的所有元素 |
attribute~=value | title~=flower | 选择 title 属性包含单词 "flower" 的所有元素 |
attribute|=value | lang|=en | 选择 lang 属性值以 "en" 开头的所有元素 |
:link | a:link | 选择所有未被访问的链接 |
:first-child | p:first-child | 选择属于父元素的第一个子元素的每个 <p> 元素 |
element1~element2 | p~ul | 选择前面有 <p> 元素的每个 <ul> 元素 |
attribute^=value | asrc^="https" | 选择其 src 属性值以 "https" 开头的每个 <a> 元素 |
attribute$=value | asrc$=".pdf" | 选择其 src 属性以 ".pdf" 结尾的所有 <a> 元素 |
attribute*=value | asrc*="abc" | 选择其 src 属性中包含 "abc" 子串的每个 <a> 元素 |
:empty | p:empty | 选择没有子元素的每个 <p> 元素(包括文本节点) |
:nth-child(n) | p:nth-child(2) | 选择属于其父元素的第二个子元素的每个 <p> 元素 |
:nth-last-child(n) | p:nth-last-child(2) | 同上,从最后一个子元素开始计数 |
::text | p::text | 选择<P>元素的文本节点(Text Node) |
3.2、CSS选择器使用
还是以提取豆瓣读书书籍信息为例:
豆瓣读书书籍信息
我要选择<ul>元素并且class=“cover-col-4 clearfix”下的li元素。
使用XPath为:
book_list = sel.xpath('//ul[@class="cover-col-4 clearfix"]/li')
使用CSS为:
book_list = sel.css('ul.cover-col-4.clearfix li')
其他的更多使用方式,我在后面的实战章节详细讲解下。
四、其他
有兴趣的可以查看下Selector对象源码。
Selector对象的源码
从源码中,发现当调用Selector对象的CSS方法时,在其内部会将CSS选择器表达式翻译成XPath表达式,然后调用Selector对象的XPath方法。