其中来自“错误:爬行器错误处理<GET...”在scrapy？

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地从网页中提取数据。当使用Scrapy进行网页爬取时，可能会遇到一些错误，其中一个常见的错误是"错误:爬行器错误处理<GET...>"。

这个错误通常表示Scrapy爬虫在处理请求时出现了问题。可能的原因包括：

网络连接问题：爬虫无法连接到目标网站或者网络连接不稳定。可以尝试检查网络连接是否正常，或者使用代理服务器来解决网络访问问题。
请求超时：爬虫在请求网页时等待的时间超过了设定的超时时间。可以通过增加超时时间来解决这个问题，例如在Scrapy的配置文件中设置DOWNLOAD_TIMEOUT参数。
网页解析错误：爬虫在解析网页时遇到了错误，可能是由于网页结构变化或者爬虫代码逻辑错误导致的。可以通过检查爬虫代码和网页结构来解决这个问题。

针对这个错误，腾讯云提供了一系列的云计算产品和服务，可以帮助开发者更好地处理爬虫错误和提高爬虫的效率。以下是一些相关的腾讯云产品和服务：

腾讯云CDN（内容分发网络）：提供全球加速、高可用的静态和动态内容分发服务，可以加速网页的访问速度，减少网络延迟和错误。
腾讯云VPC（虚拟私有云）：提供安全可靠的网络环境，可以在云上搭建专属的虚拟网络，保护爬虫的网络连接和数据安全。
腾讯云CVM（云服务器）：提供弹性、可扩展的云服务器实例，可以满足不同规模爬虫的需求，保证爬虫的稳定运行。
腾讯云COS（对象存储）：提供安全、可靠的云存储服务，可以存储和管理爬虫获取的数据，方便后续的数据处理和分析。

请注意，以上仅是一些腾讯云的产品和服务示例，其他云计算品牌商也提供类似的产品和服务。在实际应用中，开发者可以根据具体需求选择适合自己的云计算解决方案。

其中来自“错误:爬行器错误处理<GET...”在scrapy？

、、、

我很想知道这个异常是从哪里来的，以及我如何处理它： 2019-04-12 22:00:55 [scrapy.core.scraper] ERROR: Spider error processing <GET如果我想知道它来自哪里，是因为我想尝试插入一些行，这些行命令将urls添加到一个文件中，该文件专门用于某种类型的异常，使爬虫错误处理产生分析它，纠正它，并在此文件中的这些特定urls上再次启动爬虫，因为这比从一个粗糙的日志文件中启动爬虫更舒服

浏览 13提问于2019-04-14得票数 0

回答已采纳

1回答

错误:刮除模块中的蜘蛛错误处理

、、、

我编写了一个使用scrapy的web抓取程序，其中从搜索结果中提取标题和正文，同时使用命令运行蜘蛛。scrapy爬行reddit class RedditSpider(scrapy.Spider

浏览 0提问于2018-05-09得票数 0

1回答

在不使用bash脚本的情况下，如何在报废后将Scrapy日志保存在gzip中？

、、

有什么压缩日志的方法吗？我需要将它们存储一段时间，以便以后进行调试，并且找到一种减少它们大小的方法是很酷的。如果没有这样的方法，那么如何更有效地组织压缩过程？

浏览 12提问于2021-12-20得票数 0

回答已采纳

1回答

Scrapy到底在哪里做html请求呢？

、、

我在Python3中使用Scrapy (Scrapy==1.6.0)库。我想知道，在代码中Scrapy实际上在哪里做HTML请求？现在我的爬行器找不到任何页面，所以我想我要么得到一个空白的HTML文档，要么得到一个403错误，但是我不知道从哪里去确认这一点。熟悉scrapy库的人能告诉我在代码中我可以检查这些参数的确切位置吗？

浏览 12提问于2019-03-14得票数 0

2回答

在Scrapy爬虫完成爬行时运行代码

、、

有没有办法让Scrapy在爬行完全完成后执行代码，以处理移动/清理数据？我确信这是微不足道的，但我的Google-fu似乎为了这个问题而离开了我。

浏览 0提问于2013-06-28得票数 8

1回答

Python包含自定义模块

、、、

制作一个基本的python爬行器...不知道如何将我制作的一个模块包含到另一个模块中。获取：“没有模块错误”。文件结构如下： Indeed_spider.py代码：from scrapy.selector import HtmlXPathSelectorfrom scrapy.loader import XPathItemLoader from scrapy.loader.process

浏览 13提问于2016-09-02得票数 2

1回答

scrapy shell在添加第二个爬行器时不显示>>>

、

我使用以下命令创建了一个新的scrapy项目：在爬虫文件夹中，我正在创建我的scrapy类，它包含了抓取数据的所有逻辑。我正在使用Scrapy Shell进行测试。scrapy shell <

浏览 2提问于2020-04-08得票数 1

1回答

Scrapy和Twisted错误

、、

我继承了一个项目，在尝试解决一个问题时，我必须升级该项目的所有包。在这样做的过程中，我遇到了更多的问题，我束手无策。这是一个网络抓取项目使用了许多包，我已经更新了Scrapy和Twisted到最新的版本，现在遇到以下错误，当我从cmd行运行我的刮刀。我尝试过降级、扭曲和卸载/重新安装，但仍然得到相同的错误。我运行的是Windows 8.1 c:\RND\scraper\crawlers>scrapy crawl reuters 2015-08-24

浏览 2提问于2015-08-25得票数 1

1回答

scrapy xpath选择器问题

、、、

我设法使用调试爬行器找到了要隔离的属性，但我不确定是否正确地将其合并到我的爬行器中。当爬行器运行时，我没有得到明确的错误信息，所以我想我只是间接地输入了选择器。我正在爬行的网站是"“，我在调试爬行器中输入的路径命令是"response.xpath('//div@class="show_sec_button"&#x

浏览 2提问于2015-12-07得票数 0

1回答

从一个页面中抓取多篇文章，每篇文章都有单独的href

、

我已经尝试使用规则和链接提取器，但它不能导航到下一页和提取。我得到错误:爬行器错误处理 (referer: None)import scrapyfrom scrapy.linkextractorsimport LinkExtractor name = 'med

浏览 1提问于2019-07-09得票数 1

1回答

如何在Scrapy spider上运行cProfiler

、、、

我在Scrapy中有一个爬虫，我想检查瓶颈。我还有几个类提供给主要的Spider类。'w') as f : p.sort_stats('calls').print_stats() 其中QuotesSpider(scrapy.Spider)是爬行器类。可以理解的是，当使用scrapy crawl quotes运行

浏览 10提问于2021-04-02得票数 2

回答已采纳

3回答

运行Scrapy Crawler

、

我是Python和Scrapy的新手，我用PyCharm编写了一个爬虫，如下所示：from scrapy.spiders import Spiderimport re title = scrapy.Field() class MySpider

浏览 1提问于2017-02-12得票数 1

2回答

Scrapy:使用特定的python版本

、、、

我试着在我的centOs中运行scrapy。由于centos附带安装了python2.6，而scrapy需要python2.7，所以我尝试创建虚拟环境并在其中运行scrapy，但仍然出现错误(scrapyproject)[imadmin@IM03 tutorial]$ python --version(scrapypr

浏览 0提问于2014-11-04得票数 3

2回答

抓取Python需要的建议

、、、、

我找到了Beautifulsoup.和scrapy.org也请给我一些建议，哪一个更适合这个目的？

浏览 3提问于2012-12-21得票数 0

回答已采纳

1回答

无法爬行多个页面

、、、

我能够用下面的代码爬行单个页面 #identity #requests10:47:15 scrapy.core.engine调试:爬行(200) (引用:无) 2019-05-29 10:47:16 scrapy.core.engine调试:爬行(200) (引用:无2019-05-29 10:47:1

浏览 0提问于2019-05-29得票数 0

回答已采纳

2回答

Scrapy Spider Crawl 0页

、、

我试图用Scrapy从网站中提取json数据，但我遇到了一些问题，比如当我运行我的爬行器时，没有给出错误，并且说爬行了0个页面。我还使用该命令将de输出存储到json文件中，以查看输出。(self.url % i, callback=self.parse)import scrapy price = s

浏览 1提问于2016-11-05得票数 1

1回答

当尝试在AWS Lambda上测试Scrapy* Web-Crawler时，得到这个错误"raise error.reactornotrestartable()“*

、、、

然后在测试时，它第一次正确运行，但第二次出现此错误。get_project_settings() s['FEED_URI'] = '/tmp/output.csv'其中事件如下所示{ }

浏览 0提问于2020-05-18得票数 2

2回答

如何在爬虫中调试规则？

、

scrapy shell是调试xpath表达式的一个很好的工具，但是是否有任何工具或方法可以在爬行器中调试Rule呢？这意味着我如何才能知道规则按照我想要的那样工作。

浏览 1提问于2013-01-02得票数 4

1回答

scrapy上的多个蜘蛛

、、

我用姜戈，芹菜，scrapy。第二个任务在向数据库添加新链接时启动。我在django的信号：from django.dispatch import receiver "title": title, } 但是我得到了错误: t

浏览 0提问于2018-06-21得票数 0

5回答

如何在scrapy* spider中传递用户定义的参数*

、、

我试图将用户定义的参数传递给scrapy的爬行器。有谁能建议一下如何做到这一点吗？我在某处读到过一个参数-a，但不知道如何使用它。

浏览 7提问于2013-03-25得票数 121

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

其中来自“错误:爬行器错误处理<GET...”在scrapy？

相关·内容

其中来自“错误:爬行器错误处理<GET...”在scrapy？

错误:刮除模块中的蜘蛛错误处理

在不使用bash脚本的情况下，如何在报废后将Scrapy日志保存在gzip中？

Scrapy到底在哪里做html请求呢？

在Scrapy爬虫完成爬行时运行代码

Python包含自定义模块

scrapy shell在添加第二个爬行器时不显示>>>

Scrapy和Twisted错误

scrapy xpath选择器问题

从一个页面中抓取多篇文章，每篇文章都有单独的href

如何在Scrapy spider上运行cProfiler

运行Scrapy Crawler

Scrapy:使用特定的python版本

抓取Python需要的建议

无法爬行多个页面

Scrapy Spider Crawl 0页

当尝试在AWS Lambda上测试Scrapy* Web-Crawler时，得到这个错误"raise error.reactornotrestartable()“*

如何在爬虫中调试规则？

scrapy上的多个蜘蛛

如何在scrapy* spider中传递用户定义的参数*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐