scrapy分布式爬虫实例_Scrapy框架爬虫_scrapy爬虫入门 - 腾讯云开发者社区

我对分布式scrapy爬虫是个新手，但是我发现了scrapy-redis并且一直在使用它。我在一个覆盆子pi上使用它来抓取大量我推送到redis的URL。我所做的就是在Pi中创建多个SSH会话，然后运行scrapy crawl myspider让爬行器“等待”。然后我启动另一个SSH并执行redis-cli lpush "my links“。然后爬虫运行，尽管我不确定它们实际运行的并发程度。我希望这是清楚的，如果没有，请让我知道，我可以澄清。我真的只是在寻找在实现这个基本版本

浏览 0提问于2020-07-31得票数 0

1回答

如何顺利地重启scrapy-redis蜘蛛？

、、

我用scrapy-redis写了一个简单的爬虫来制作分布式蜘蛛。当我启动两只蜘蛛，然后把它们都杀死时，我发现了这点。redis队列只留下了‘dupfilter’队列。当我重新启动这两个爬虫时，它们根本不起作用。那么，如果蜘蛛意外死亡或崩溃，如何重新启动它们呢？

浏览 0提问于2016-05-30得票数 0

1回答

抓取路径中的蜘蛛

、

一些关于运行scrapy的建议建议这样做，以便通过脚本启动scrapy，或者在IDE中进行调试，等等：import os 通过这个，我

浏览 1提问于2016-09-29得票数 2

3回答

Scrapy -如何启动同一爬虫进程的多个实例？

、、、

我在启动同一爬虫的多个实例时被卡住了。我想让它像一个爬虫实例的1url一样运行。我必须处理50k个urls，为此，我需要为每个urls启动单独的实例。在我的主要爬虫脚本中，我设置了7分钟的closedpider超时，以确保我不会爬行很长时间。请参考下面的代码：from scrapy.utils.project import get_project_settings但之

浏览 1提问于2015-11-13得票数 6

1回答

如何将数据传递给scrapinghub？

、、

我正试图在scrapinghub上运行一个scrapy spider，我想传递一些数据。我正在使用他们的API来运行爬虫：他们有一个job_settings选项，这似乎是相关的，但是我不知道如何访问我的Spider类中的job_settings数据。这里的正确方法是什么？

浏览 9提问于2016-09-01得票数 2

回答已采纳

1回答

爬行器对象与爬行器和管道对象之间有什么关系？

、

table_name = table[0:3] # FIRST 3 LETTERS我一直在阅读，其中包含：但是仍然不了解from_crawler方法和爬虫对象。如何以及何时实例化爬虫？蜘蛛是爬虫的子类吗？我问过，但我不明白这些部分是如何组合在一起的。

浏览 2提问于2017-12-25得票数 2

回答已采纳

2回答

抓取并发或分布式爬网

、、

我想用scrapy抓取相当大的网站。在某些情况下，我已经有了抓取的链接，而在其他情况下，我需要提取(抓取)它们。我还需要在运行时访问数据库两次。理想情况下，我可以运行并发或分布式爬行，以加快速度。使用scrapy运行并发或分布式爬网的推荐方式是什么？

浏览 5提问于2015-05-28得票数 4

1回答

如何让scrapy使用两个队列来管理urls？

、、、

我想用scrapy框架和scrapy-redis库做一个有针对性的分布式爬虫。我应该修改哪些scrapy模块来满足我的需求？

浏览 14提问于2018-08-23得票数 0

1回答

如何从redis获得一个正常的url，而不是通过url cPikle转换？

、、、、

我使用scrapy简单地构建了一个分布式爬虫，从机器需要读取url形式的主队列url，但是有一个问题是，我到达url从机器是在cPikle转换后的数据，我想从redis- url队列中获得url是正确的示例：from scrapy.spider import Spider re

浏览 5提问于2016-03-21得票数 1

回答已采纳

2回答

如何使用Scrapyd和ScrapydWeb在集群中分布爬虫？

、、、

我在一个使用Scrapy的爬虫项目中工作，我需要将我的爬虫分布在集群中的不同节点上，以使过程更快。问题是爬行是并行运行的(内容是由两台机器获取的)，我的目的是以一种分布式的方式进行爬行，以最小化爬行时间。有人能帮我吗？提前谢谢你。

浏览 6提问于2020-05-07得票数 2

2回答

在Scrapy >= 0.14中编程启动爬虫最简单的方法是什么？

、、

我想从Python模块在Scrapy中启动一个爬虫。扩展BaseSpider并在初始化时需要参数的爬虫类。我可以很高兴地使用上面指定的scrapy命令运行我的项目，但是我正在编写集成测试，我想通过编程：有人能帮我吗？

浏览 1提问于2012-06-26得票数 9

2回答

为什么spider.py中的scrapy需要一个爬虫对象？

、

我在一些类末尾的爬虫文件中看到了这一点 pass 我们为什么要使用SPIDER = TestSpider我没有使用它，而且我的爬虫工作得很好。

浏览 1提问于2012-12-19得票数 4

回答已采纳

1回答

Scrapy 4xx/5xx错误处理

、

我们正在构建一个分布式系统，它使用Amazon的SQS将消息分派给根据消息内容运行爬虫的工作者。我们(显然)只希望在相应的爬行器成功运行的情况下从队列中删除消息，即不会遇到4xx/5xx响应。我想要做的是挂钩到scrapy的signals API来触发一个回调，当爬虫成功关闭时，该回调将从队列中删除消息，但我不确定这是否真的是signals.spider_closed的语义(而不是“这个蜘蛛由于任何原因而关闭

浏览 1提问于2015-08-28得票数 0

1回答

抓取让一只蜘蛛使用另一种蜘蛛所建的属性。

、、、

目前，我正在创建这个主蜘蛛的实例，如下所示： process = CrawlerProcess(get_project_settings

浏览 3提问于2017-08-02得票数 2

1回答

linux上的shell脚本

、、

nohup scrapy crawl f & wait $!nohup scrapy crawl h & wait $!nohup scrapy crawl i & nohup scrapy crawl k & wait $

浏览 2提问于2012-11-03得票数 2

回答已采纳

1回答

在类外设置scrapy的起始urls

、

我是新的Scrapy，我怎么能传递start_urls从外部的类，我试图使start_urls外部的类，但它没有work.What我正在尝试做的是创建一个文件与文件名从字典(search_dict)和它的值作为Scrapy的开始网址 search_dict={'hello world':'https://www.google.com/search?q="test"'} n

浏览 13提问于2019-06-04得票数 1

回答已采纳

2回答