如何设置Scrapy并让它一个接一个地爬行？

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地抓取和提取网页数据。要设置Scrapy并让它一个接一个地爬行，可以按照以下步骤进行操作：

安装Scrapy：使用pip命令安装Scrapy库，可以在命令行中执行以下命令：
安装Scrapy：使用pip命令安装Scrapy库，可以在命令行中执行以下命令：
创建Scrapy项目：在命令行中使用scrapy startproject命令创建一个新的Scrapy项目，例如：
创建Scrapy项目：在命令行中使用scrapy startproject命令创建一个新的Scrapy项目，例如：
定义爬虫：在Scrapy项目中，使用Spider类定义爬虫。在项目目录下的spiders文件夹中创建一个Python文件，例如myspider.py，并编写爬虫代码。以下是一个简单的示例：
定义爬虫：在Scrapy项目中，使用Spider类定义爬虫。在项目目录下的spiders文件夹中创建一个Python文件，例如myspider.py，并编写爬虫代码。以下是一个简单的示例：
配置爬虫：在Scrapy项目的根目录下的settings.py文件中，可以进行一些配置，例如设置User-Agent、延时等。可以根据需要进行相应的配置。
运行爬虫：在命令行中进入Scrapy项目的根目录，使用scrapy crawl命令加上爬虫的名称来运行爬虫。例如，如果爬虫的名称是myspider，则可以执行以下命令：
运行爬虫：在命令行中进入Scrapy项目的根目录，使用scrapy crawl命令加上爬虫的名称来运行爬虫。例如，如果爬虫的名称是myspider，则可以执行以下命令：
设置爬虫的连续爬行：为了让Scrapy一个接一个地爬行，可以在爬虫的parse方法中编写代码来提取下一个要爬取的URL，并使用yield关键字返回一个新的请求。以下是一个示例：
设置爬虫的连续爬行：为了让Scrapy一个接一个地爬行，可以在爬虫的parse方法中编写代码来提取下一个要爬取的URL，并使用yield关键字返回一个新的请求。以下是一个示例：

通过以上步骤，你可以设置Scrapy并让它一个接一个地爬行。请注意，这只是一个基本的示例，实际应用中可能需要根据具体需求进行更复杂的配置和处理。另外，腾讯云提供了云计算相关的产品，例如云服务器、云数据库等，可以根据具体需求选择适合的产品。你可以访问腾讯云官网了解更多详情：腾讯云。

如何设置Scrapy并让它一个接一个地爬行？

、

如何设置Scrapy并让它一个接一个地爬行?sort=time&status=P"当我运行这个爬虫时，它在同一个moment.In中抓取了多个way.So事实上，我要抓取的网站会保护这个urls我想知道是否有一个设置来

浏览 10提问于2017-08-03得票数 0

回答已采纳

2回答

使用Scrapy写入多个文件

、、

我正在用Scrapy抓取一个网站，我想把结果分成两部分。通常我这样叫Scrapy：$ scrapy crawl authors -o authors.json如何让articles爬行器告诉authors爬行器要<em

浏览 3提问于2013-02-04得票数 6

回答已采纳

2回答

使用Scrapy用单个蜘蛛抓取多个网站

、、、、

我正在使用Scrapy从中刮取数据。下面是蜘蛛的代码。class StackItem(scrapy.Item): if key not in self.fields:self.fields[key] = scrapy.Field()事实上，被废弃的网站列表是无穷无尽的。在此项目中，用户将输入url，报废的结果将返回给该用户。所以，我想

浏览 3提问于2015-08-25得票数 2

2回答

和Scrapy产生的请求

、

举例说明yield和return有什么不同？当我们在生成器中yield任何值或请求时，实际发生了什么？我的循环是： yield Request(url,callback=parse)代码所遵循的顺序是什么？

浏览 1提问于2012-01-09得票数 7

1回答

为从另一个爬行器抓取的start_requests提供URL值

、、

我完全是python和scrapy的新手。我正在尝试创建一个抓取器，它将首先清除URL，获取所有要抓取的URL，并将URL值逐个获取到另一个抓取器，然后获取实际所需的数据。到目前为止，我有两个独立的爬行器获取这些值并将其保存到一个文本文件中。然后第二个爬虫从文本文件中抓取URL。但是，有没有办法让第一个爬行器调用第二个爬行器，一个接一个地提供URL，而不是将其存储

浏览 29提问于2019-03-07得票数 0

回答已采纳

2回答

使用Google Cloud Functions时的ReactorNotRestartable与scrapy

、、、

如果是这样，我们如何才能消除这种行为。例如，我尝试将导入和初始化过程放在函数内部，而不是外部，以防止导入缓存，但这不起作用： # main.py from scrapy.crawler

浏览 24提问于2020-04-07得票数 3

回答已采纳

1回答

用Anaconda运行抓取蜘蛛

、、、

你好，我正在努力完成在以下网站上找到的教程：文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py"，第43行，在load KeyError(“蜘蛛未找到：{}".format(spider_name

浏览 5提问于2016-10-06得票数 2

回答已采纳

1回答

如何从另一个抓取蜘蛛开始

、、、

我在一个Scrapy项目中有两个蜘蛛。Spider1爬行页面列表或整个网站并分析内容。Spider2使用Splash在谷歌上获取URL，并将该列表传递给Spider1。因此，无需Spider2调用即可使用Spider1对内容进行爬行和分析from scrapy.spiders import CrawlSpider name =

浏览 7提问于2017-07-25得票数 3

回答已采纳

2回答

如何将urls动态添加到start_urls

、、

我试图从亚马逊上获取产品信息，但遇到了一个问题。当爬行器到达页面的末尾时，它会停止，我想为我的程序添加一种方法来搜索页面的下三个页面。import scrapyfrom scrapy import Request class ProductSpider(scrapy.Spider

浏览 0提问于2018-07-18得票数 1

3回答

我对Python非常陌生，对Scrapy非常陌生。我正在尝试构建一个蜘蛛，它将转到给定的URL，并在该站点中运行多个嵌套搜索。在每个级别的脑膜下，我正在寻找目标类别，并发出一个请求，以获得该子类别，直到我到第3级时，我分析结果寻找一个特定的项目。存储基本URL ->家庭->厨房->电器:解析结果寻找“搅拌器”。我可以将搜索数据加载到我的CrawlSpider中，并告诉Scrapy运行所有这些搜索，但是Scrapy看到起始URL是相同的，所以<em

浏览 2提问于2014-02-26得票数 1

1回答

Scrapy框架- Colorize日志记录

、、、

我正在尝试让Scrapy输出彩色日志。我对Python日志记录不是很熟悉，但我的理解是我必须制作自己的格式化程序，并让Scrapy使用它。我成功地使用Clint制作了一个格式化程序来对输出进行着色。我的问题是我不能让它在Scrapy中正常工作。我本以为爬行器中的记录器对象会有一个处理程序，然后我会切换该处理程序的格式化程序。当我查看spider.logger.logger内部的内容时，我发现handler是一

浏览 8提问于2017-02-08得票数 4

回答已采纳

1回答

使用JOBDIR获取重复项

、、

Scrapy的JOBDIR设置提供了可恢复的爬行，如下所述： scrapy crawl myspider -o out.csv -t csv -s JOBDIR=./jobs/run-1[myspider] INFO: Resuming crawl (74

浏览 2提问于2014-03-06得票数 5

回答已采纳

1回答

抓取CrawlSpider -只有在第一个URL完成后才开始在下一个URL上爬行

、、

它工作正常，但目前的结果并不是任何特定的顺序，这意味着一些行将来自yellopages.com，而其他行将来自sports.yahoo.com。我知道这是正常的Scrapy行为，因为它是异步的，但是我还是可以这样做的，所以首先从yellowpages.com提取所有链接，然后从sports.yahoo.com提取链接等等。在特定URL中，爬行可以是异步的，这并不重要。但是URL本身应该按顺序爬行。我认为这样做的一种方法是将所有start url保存在一个单独的列表中，并且只在start_urls中放置<e

浏览 1提问于2016-01-03得票数 2

1回答

Python Scrapy* tutorial KeyError：‘找不到爬虫：*

、

我正在尝试编写我的第一个抓取蜘蛛，我一直在上的教程，但我得到一个错误"KeyError：‘蜘蛛找不到：“scrapy scrapy.cfg(proscraper)#( 10/14/14@ 2:13pm )( tim@localhost ):~/Workspace/Development", line 9, in <module>

浏览 2提问于2014-10-14得票数 6

回答已采纳

1回答

Scrapy部署算法

、、、、

请帮我理清思路：我想在EC2上为我的项目设置一个爬网。我正在使用带有MySQL的Scrapy来显示结果。另外，我想为预定的爬行(例如每天)实现cron；所以我的理解是:我用所有必要的包(python、mysql、scrapy等)设置EC2；然后我创建我的爬虫，我测试它们；当它们工作时，我设置cron让爬行在没有我的情况下发生我是否需要使用Scrapyd，或者它只是一个选项？

浏览 11提问于2017-02-26得票数 0

回答已采纳

1回答

ScrapyRT vs Scrapyd

、、、

它为一个scrapy项目提供了一个很好的包装器，并且它的爬行器可以通过HTTP API控制爬行器： Scrapyd是一个用于运行Scrapy爬行器的服务。它允许您部署Scrapy项目并使用HTTP JSON API控制它们的爬行器。但是，最近我注意到了另一个“新鲜”的包-- ，根据项目描述，它听起来非常有前途，类似于Scrap

浏览 120提问于2016-05-18得票数 26

回答已采纳

2回答

抓取在本地附加，在S3上替换？

、、

我实现了一个Scrapy项目，现在在本地运行得很好。使用crawl命令，每个爬行器将其jsonline附加到同一个文件(如果该文件存在的话)。当我使用boto将提要导出器更改为S3时，它现在会用上次运行的爬行器中的数据覆盖整个文件，而不是附加到文件中。有没有办法让Scrapy/boto/S3像本地一样将jsonline附加到文件中？

浏览 0提问于2014-04-12得票数 3

4回答

在多个网站上使用一个Scrapy爬虫

、、

我需要创建一个用户可配置的网络蜘蛛/爬虫，我正在考虑使用Scrapy。但是，我不能硬编码域和允许的URL regex:es --这将在GUI中配置。如何(尽可能简单地)使用Scrapy创建一个爬行器或一组爬行器，其中域和允许的URL regex:es是动态可配置的？例如，我将配置写到一个文件中，然后爬行器以某种方式读取它。

浏览 2提问于2010-03-07得票数 12

回答已采纳

1回答

在跟随之前抓取整个网站

、、、

我使用Scrapy爬虫无限期地爬行网络，我的脚本使用DEPTH_LIMIT = 0。。

浏览 2提问于2016-03-10得票数 1

回答已采纳

1回答

爬行蜘蛛的刮痕流

、

我很难弄清楚Scrapy是如何工作的(或者我需要如何处理它)。这个问题有点宽泛--更需要理解。我设置了一个CrawlSpider并添加了6个启动urls。现在，Scrapy应该获取这6个urls并抓取它们，然后处理这些页面上的项目。但是相反，它似乎采取了这6个urls，然后检查这些页面上的每个链接，并遵循这些链接，这是可能的吗？Scrapy是否只接受URL 1，扫描所有链接<em

浏览 0提问于2015-06-30得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何设置Scrapy并让它一个接一个地爬行？

相关·内容

如何设置Scrapy并让它一个接一个地爬行？

使用Scrapy写入多个文件

使用Scrapy用单个蜘蛛抓取多个网站

和Scrapy产生的请求

为从另一个爬行器抓取的start_requests提供URL值

使用Google Cloud Functions时的ReactorNotRestartable与scrapy

用Anaconda运行抓取蜘蛛

如何从另一个抓取蜘蛛开始

如何将urls动态添加到start_urls

Scrapy:对同一个URL运行多个嵌套搜索

Scrapy框架- Colorize日志记录

使用JOBDIR获取重复项

抓取CrawlSpider -只有在第一个URL完成后才开始在下一个URL上爬行

Python Scrapy* tutorial KeyError：‘找不到爬虫：*

Scrapy部署算法

ScrapyRT vs Scrapyd

抓取在本地附加，在S3上替换？

在多个网站上使用一个Scrapy爬虫

在跟随之前抓取整个网站

爬行蜘蛛的刮痕流

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐