在Scrapy中使用嵌套解析器时保存的重复项

在Scrapy中使用嵌套解析器时，可以通过设置去重过滤器来保存重复项。Scrapy提供了多种去重过滤器，常用的包括基于内存的去重过滤器和基于数据库的去重过滤器。

基于内存的去重过滤器使用哈希表来保存已经处理过的请求的指纹（fingerprint），并在每次处理新的请求时进行对比。如果新的请求的指纹已经存在于哈希表中，那么该请求将被视为重复项，Scrapy将自动过滤掉该请求，不会再次进行处理。这种去重过滤器适用于小规模爬虫。

基于数据库的去重过滤器将已处理过的请求的指纹保存到数据库中，并在每次处理新的请求时查询数据库进行对比。如果新的请求的指纹已经存在于数据库中，那么该请求将被视为重复项，Scrapy将自动过滤掉该请求。这种去重过滤器适用于大规模爬虫，因为数据库可以支持更大的数据量和更快的查询速度。

在Scrapy中，可以通过在项目的settings.py文件中配置DUPEFILTER_CLASS参数来选择使用哪种去重过滤器。例如，可以使用Scrapy提供的基于内存的去重过滤器：

DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'

或者使用Scrapy提供的基于数据库的去重过滤器：

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

值得一提的是，Scrapy还提供了一种特殊的去重过滤器scrapy_redis.dupefilter.RFPDupeFilter，它结合了基于内存和基于数据库的去重机制，可以在分布式爬虫中有效地去重。

总结起来，Scrapy中使用嵌套解析器时保存的重复项可以通过配置去重过滤器来实现去重功能，具体选择哪种去重过滤器取决于爬虫的规模和需求。

被<![CDATA[]]>这个标记所包含的内容将表示为纯文本，比如<![CDATA[<]]>表示文本内容“<”。　　此标记用于xml文档中，我们先来看看使用转义符的情况。我们知道，在xml中，”<”、”>”、”&”等字符是不能直接存入的，否则xml语法检查时会报错，如果想在xml中使用这些符号，必须将其转义为实体，如”<”、”>”、”&”，这样才能保存进xml文档。　　在使用程序读取的时候，解析器会自动将这些实体转换回”<”、”>”、”&”。举个例子： <age> age < 30 </age> 　　上面这种写法会报错，应该这样写： <age> age < 30 </age> 　　值得注意的是：　　(1)转义序列字符之间不能有空格；　　(2) 转义序列必须以”;”结束；　　(3) 单独出现的”&”不会被认为是转义的开始；　　(4) 区分大小写。　　在XML中，需要转义的字符有：　　(1)&　　　& 　　(2)<　　　< 　　(3)>　　　> 　　(4)＂　　　" 　　(5)＇　　　' 　　但是严格来说，在XML中只有”<”和”&”是非法的，其它三个都是可以合法存在的，但是，把它们都进行转义是一个好的习惯。　　不管怎么样，转义前的字符也好，转义后的字符也好，都会被xml解析器解析，为了方便起见，使用<![CDATA[]]>来包含不被xml解析器解析的内容。但要注意的是：　　(1) 此部分不能再包含”]]>”；　　(2) 不允许嵌套使用；　　(3)”]]>”这部分不能包含空格或者换行。　　最后，说说<![CDATA[]]>和xml转移字符的关系，它们两个看起来是不是感觉功能重复了？　　是的，它们的功能就是一样的，只是应用场景和需求有些不同：　　(1)<![CDATA[]]>不能适用所有情况，转义字符可以；　　(2) 对于短字符串<![CDATA[]]>写起来啰嗦，对于长字符串转义字符写起来可读性差；　　(3) <![CDATA[]]>表示xml解析器忽略解析，所以更快。

第3章中，我们学习了如何从网页提取信息并存储到Items中。大多数情况都可以用这一章的知识处理。本章，我们要进一步学习抓取流程UR2IM中两个R，Request和Response。一个具有登录功能的爬虫你常常需要从具有登录机制的网站抓取数据。多数时候，网站要你提供用户名和密码才能登录。我们的例子，你可以在http://web:9312/dynamic或http://localhost:9312/dynamic找到。用用户名“user”、密码“pass”登录之后，你会进入一个有三条房产链接的网页。现在的问

这是官方文档的命令行工具https://docs.scrapy.org/en/latest/topics/commands.html 配置设置 Scrapy 默认在 scrapy.cfg 文件中查找配置参数：系统范围：/etc/scrapy.cfg 或 c:\scrapy\scrapy.cfg 用户范围：~/.config/scrapy.cfg ($XDG_CONFIG_HOME) 和 ~/.scrapy.cfg ($HOME) 项目内范围：scrapy.cfg 项目范围的设置将覆盖所有其他文件的设置

《Learning Scrapy》（中文版）第1章 Scrapy介绍HelloScrapy喜爱Scrapy的其它理由关于此书：目标和用法掌握自动抓取数据的重要性开发高可靠高质量的应用提供真实的开发进

下载本书代码：https://github.com/scalingexcellence/scrapybook。下载本书PDF（英文版）：http://file.allitebooks.com/20

python 爬虫资源包汇总

做一个知识的索引网络通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库（基于pycurl）。 pycurl – 网络库（绑定libcurl）。 urllib3 – Python HTTP库，安全连接池、支持文件post、可用性高。 httplib2 – 网络库。 RoboBrowser – 一个简单的、极具Python风格的Python库，无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互Python库。 mechaniz

从 Scrapy 的部署、启动到监控、日志查看，我们只需要鼠标键盘点几下就可以完成，那岂不是美滋滋？更或者说，连 Scrapy 代码都可以帮你自动生成，那岂不是爽爆了？有需求就有动力，没错，Gerapy 就是为此而生的，GitHub：https://github.com/Gerapy/Gerapy。安装 Gerapy 是一款分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Spla

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Scrapy中使用嵌套解析器时保存的重复项

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐