有没有办法在不同的formdata上循环Scrapy？

在Scrapy中，可以通过编写自定义的中间件来实现在不同的formdata上循环。下面是一个实现的示例：

首先，创建一个名为FormDataMiddleware的中间件类，并在settings.py文件中启用该中间件：

# middlewares.py
class FormDataMiddleware(object):
    def process_request(self, request, spider):
        if 'formdata' in request.meta:
            formdata_list = request.meta['formdata']
            for formdata in formdata_list:
                request_copy = request.copy()
                request_copy.meta['formdata'] = formdata
                yield request_copy

# settings.py
DOWNLOADER_MIDDLEWARES = {
    'your_project_name.middlewares.FormDataMiddleware': 543,
}

在Spider中，定义一个formdata列表，并将其传递给Request的meta属性：

# your_spider.py
class YourSpider(scrapy.Spider):
    name = 'your_spider'

    def start_requests(self):
        formdata_list = [
            {'key1': 'value1'},
            {'key2': 'value2'},
            # 添加更多的formdata
        ]
        for formdata in formdata_list:
            yield scrapy.Request(url='http://example.com', meta={'formdata': formdata}, callback=self.parse)

    def parse(self, response):
        # 解析响应数据
        pass

这样，Scrapy会根据formdata列表中的每个元素生成对应的请求，并在请求中携带相应的formdata。你可以根据需要修改和扩展FormDataMiddleware中的逻辑，以满足你的具体需求。

对于这个问题，腾讯云没有特定的产品或服务与之直接相关。但腾讯云提供了一系列云计算相关的产品和服务，如云服务器、云数据库、云存储等，可以帮助用户构建和管理云计算基础设施。你可以访问腾讯云官网了解更多详情：腾讯云。

有没有办法在不同的formdata上循环Scrapy？

、、

我在一家物流公司工作，我们试图实现自动化的一部分是跟踪各种货物的状态。然而，在我们自动化整个跟踪部门的计划中，我们将需要处理比10个数字长得多的列表。我遇到的主要问题是，每次我想运行Scrapy时，Scrapy都会要求我在Jupyter notebook中重新启动内核，这会阻止我将跟踪编号列表分成10个列表。 有没有办法从内部循环Scrapy？到

浏览 18提问于2019-04-23得票数 0

1回答

粗糙的FormRequest不能将复杂的数据作为格式数据处理

、、、、

，在scrapy shell中运行：method_post = 'POST'作为回应，使用不同<e

浏览 0提问于2019-04-09得票数 1

回答已采纳

1回答

刮擦javascript生成的结果- scrapy-splash

、、、

当您在字典搜索框中引入一些缩略词时，我正在尝试刮取javascript函数生成的结果。这是我使用的代码：from scrapy_splash import SplashFormRequest 我获得了html主体，但是我应该看到的生成结果(<span id="resultado">...我也试过： import

浏览 1提问于2021-05-11得票数 0

1回答

用POST方法提出要求

、、

我正在尝试使用Scrapy从"“中抓取产品列表。import scrapy name = "intel_eg_eastasiaeg_com_py"

浏览 3提问于2016-08-18得票数 3

回答已采纳

2回答

等待Scapy回调函数

、、、

我对一般的Scrapy和Python都很陌生。以下是代码：import json name = 'mooc' def parse_api(self, response):，Scrapy</

浏览 3提问于2020-12-03得票数 1

回答已采纳

2回答

做一个好公民，抓取网络

、、

我有一个两部分的问题。首先，我正在使用Scrapy编写一个基于爬行器的网络爬行器。我的目标是抓取一个有数千条(可能是数十万条)记录的网站。这些记录从起始页往下埋了2-3层。所以基本上我让爬虫从某个页面开始，爬行直到它找到特定类型的记录，然后解析html。我想知道的是，有什么方法可以防止我的爬行器使站点过载？有没有可能在不同的请求之间增加或暂停？其次，与之相关的是

浏览 0提问于2011-12-17得票数 6

回答已采纳

1回答

IE11中的Angular FormData* forEach和getAll误差方法*

、

在Angular中，我试图循环一个FormData对象，但在IE11中显示了这个错误。顺便说一句，一切都可以在Chrome上运行。const formData = new FormData();formData.forEach((x: File) => { IE1

浏览 48提问于2020-12-18得票数 0

1回答

Scrapy 1.8.0返回错误500，而Python代码返回成功200

、、、、

返回状态500错误： 'x-client': 'EXMOOR', method='GET', headers=headers, formdata</

浏览 0提问于2020-01-28得票数 0

回答已采纳

2回答

Scrapy:使用不同的.cfg文件

、

默认情况下，Scrapy在项目根目录中使用scrapy.cfg。有没有办法告诉它使用不同的.cfg文件？

浏览 1提问于2011-10-14得票数 0

回答已采纳

2回答

如何在asyncio甚至循环内运行scrapy* spider？*

、

有没有办法在asyncio循环中运行scrapy spider？例如，在以下代码中：from scrapy.crawler import CrawlerProcessimportscrapy process = CrawlerProcess() await process.crawl(MyS

浏览 1提问于2017-12-04得票数 5

1回答

使用FORMDATA的刮擦问题使用凭据刮取网站

、、、、

我被困住了，想知道有没有人能检查一下我到目前为止做了什么，帮我一把？1)我加载了“玻璃门”登录页面并打开检查工具(以Chrome格式)，我尝试了很多在线资源，但却找不到解决这个问题的办法？我还放置了我开始使用的代码： impo

浏览 3提问于2020-06-09得票数 0

回答已采纳

2回答

使用selenium登录到堆栈溢出是可行的，但是使用scrapy是not.How，我可以用无头浏览登录吗？

、、、、

import scrapy formdata = { 'fkey': token,是两种不同的方法。现在，对于抓取，我

浏览 1提问于2020-09-24得票数 2

回答已采纳

1回答

我使用的是Scrapy，在response_is_ban函数中，我有两个对象，一个是{Request}对象，一个是{Response}对象。from scrapy.http import Request 由于某些原因，Scrapy请求返回的结果与标准Curl不同。 有没有办法重新运行{Request}对象？类似于： response = request.get_again() 我们的目标是弄清楚我的

浏览 14提问于2019-05-28得票数 0

1回答

刮伤型FormRequest

、、、

我对刮伤的FormRequest有困难。我试图从这个页面获得所有评论(无限滚动)：但是，当我尝试使用scrapy命令行时，我无法得到正确的响应。from scrapy import FormRequest fetch("https://www.temporel-voyance.com/voyance/planning/consultatio

浏览 1提问于2018-10-20得票数 1

回答已采纳

1回答

如何在同一个Python蜘蛛中使用Scrapy发出多个表单请求

、、、

因此，正如您将要看到的，我只是从一般的Python/Scrapy/编程开始。我试图弄清楚如何在同一个蜘蛛中执行多个表单请求。我试着从一个职员和记录员的网页上抓取数据，但是有两个(或更多)不同的名字。下面是我想要的结果的第一页(名称为“Cruz”)：class LoginSpider(scrapy.Spider): name = "C

浏览 0提问于2018-04-22得票数 0

回答已采纳

1回答

当登录到具有隐藏令牌身份验证的论坛时，Scrapy* >爬行循环*

、

我正在学习如何使用Scrapy检索论坛页面并将其储存到我的服务器上。论坛使用基于隐藏令牌的身份验证。import scrapyfrom scrapy.http import FormRequest

浏览 2提问于2020-06-23得票数 0

回答已采纳

2回答

如何使用Scrapy从onclick事件中获得链接？

、、、

我一直在使用Scrapy获取内容，但是我在从这个特定的站点获得链接时遇到了一些困难：此外，所有职务说明的链接对于所有职务都是相同的我只是在设置href属性为“#”并由JavaScript创建链接时遇到

浏览 5提问于2016-02-21得票数 0

2回答

使用Splash将Scrapy发布到Javascript生成的表单

、、、、

我有下面的蜘蛛，它应该是用来发布到表单中的。不过，我似乎没办法让它起作用。当我通过Scrapy做这件事的时候，我的反应从来没有显示出来。有人能告诉我我哪里出了问题吗？这是我的蜘蛛密码：from __future__ import unicode_literalsfrom scrapy.httpimport FormRequest from scrapy.s

浏览 8提问于2016-03-13得票数 1

回答已采纳

1回答

抓取包含用URL隐藏的_dopostback方法的网站

、、

我是Scrapy的新手。我试图刮网站在asp，其中包含各种配置文件。它总共有259页。如何使用scrapy迭代多个页面并提取信息？2FwEWDALTg7oVAsGH9qQBAsGHisMBAsGHjuEPAsGHotEBAsGHpu8BAsGHupUCAsGH%2FmACwYeS0QICwYeW7wIC%2FLHNngECkI3CyQtVVahoNpNIXsQI6oDrxjKGcAokIA%3D%3D 我查看了多个解决方案和帖子，它们建议查看post调用的参数并使用它们，但我无法理解post中提供的参数。

浏览 1提问于2018-07-21得票数 2

回答已采纳

1回答

如何使用scrapy/python从URL直接读取xml

、、、、

在Scrapy中，您必须定义start_url，但是我如何从其他urls中爬行呢？ name = 'example' start_urls = ['login page']urls = ['url','url'

浏览 2提问于2015-06-05得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

有没有办法在不同的formdata上循环Scrapy？

相关·内容

有没有办法在不同的formdata上循环Scrapy？

粗糙的FormRequest不能将复杂的数据作为格式数据处理

刮擦javascript生成的结果- scrapy-splash

用POST方法提出要求

等待Scapy回调函数

做一个好公民，抓取网络

IE11中的Angular FormData* forEach和getAll误差方法*

Scrapy 1.8.0返回错误500，而Python代码返回成功200

Scrapy:使用不同的.cfg文件

如何在asyncio甚至循环内运行scrapy* spider？*

使用FORMDATA的刮擦问题使用凭据刮取网站

使用selenium登录到堆栈溢出是可行的，但是使用scrapy是not.How，我可以用无头浏览登录吗？

如何在Python中重新运行抓取的请求对象？

刮伤型FormRequest

如何在同一个Python蜘蛛中使用Scrapy发出多个表单请求

当登录到具有隐藏令牌身份验证的论坛时，Scrapy* >爬行循环*

如何使用Scrapy从onclick事件中获得链接？

使用Splash将Scrapy发布到Javascript生成的表单

抓取包含用URL隐藏的_dopostback方法的网站

如何使用scrapy/python从URL直接读取xml

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐