如何使用Scrapy自动获取请求头？

我正在运行一个抓取蜘蛛，它首先从我抓取的网站获取授权令牌，使用基本请求库。用于此的函数称为get_security_token()。此令牌作为标头传递给scrapy请求。爬行器是否可以看到401错误，再次运行get_security_token()函数，然后将新的令牌传递给所有未来的请求头？import scrapy name = 'p

浏览 12提问于2020-08-04得票数 0

1回答

抓取跟随javascript输入按钮

、、、

我已经尝试了下面的代码，只是看看是否有scrapy跟随输入，但没有成功。links = sel.xpath("//input[@class='GetData']").extract() yield scrapy.FormRequest.from_response

浏览 1提问于2016-01-21得票数 3

回答已采纳

2回答

如何在刮伤中验证Yelp API？通过Secret_Token和搜索？

、、、

下面是我在Scrapy日志中抛出400错误的代码。这段代码背后的逻辑如下- 1)我使用post请求来获取我的Secret_Token。2)将头设置为使用秘密令牌，并为API搜索字符串定义参数。我还认为，对于进一步的请求，应该将带有Secret_token的头作为元数据传递。3)在这里，我期望Parse函数在#2中接收来自请求的json响应，并将其解析为items。在该循环之后，在Parse方法中列出准备和工作请求#2

浏览 2提问于2017-03-06得票数 1

回答已采纳

2回答

Scrapy:在一个请求失败的情况下(例如404,500)，如何请求另一个替代请求？

、、、

我对scrapy有意见。在一个请求失败的情况下(如404,500)，如何请求另一个替代请求？如两个链接可以获取价格信息，其中一个失败了，另一个自动请求。

浏览 1提问于2013-06-04得票数 8

回答已采纳

1回答

将刮伤改为刮红后，启动url头改变。

、

我有一个刮伤项目，我想将它修改为scrapy :主要的刮伤文件如下： name = 'ScrapyBot' callback=self.parse}该请求在Scrapy中运行良好，但在添加scrapy-redis部件后，开始请求中的

浏览 2提问于2022-03-29得票数 0

1回答

抓取分页XHR 400坏请求

、、、

我正在尝试从https://www.magzter.com/magazines/listAllIssues/503中获取所有的urlhttps://www.magzter.com/magazines/listAllIssues/503/12 https://www.magzter.com/magazines/listAllI

浏览 7提问于2017-09-24得票数 0

回答已采纳

1回答

在Scrapy框架中发送post请求，它不工作，但在python请求中工作，显示403个错误

、、

我面临一个与POST API中的scrapy框架相关的问题。我是通过python请求完成的，但我不理解scrapy框架的问题。我只想把api数据保存在我的系统中，这样我就可以访问所有的酒店名称。我认为该网站正在使用一些反刮措施。蜘蛛： name = 'm' 'COOKIES_ENABLED

浏览 10提问于2022-02-02得票数 0

1回答

如何打印Scrapy发送的请求头？

、、

我想要做的任务是打印scrapy发送的请求头。我在如何使用scrapy中间件方面遇到了一点困难。我在项目settings.py文件中激活了下载器中间件。谁能告诉我如何激活那个特定的功能？或者，是否有其他方法可以打印请求标头？

浏览 21提问于2021-05-31得票数 1

1回答

在heroku上部署scrapy项目

、、、

我有一个抓取蜘蛛项目，它报废了一些网站，并获取我的数据上。我的爬行器生成两个JSON文件，所有抓取的数据都存储在这两个文件中。现在，我有一个flask web服务，它使用上述两个JSON文件来满足用户的请求。我想自动化这个过程，即scrapy项目应该每天运行，产生的JSON文件应该自动更

浏览 1提问于2014-04-24得票数 2

1回答

Selenium，Scrapy迭代(单击下一步)仅从第一页提取项目的href

、、

要转到下一页，我使用next_click()。Selenium webdriver将打开并单击所有页面(到目前为止还不错)。但只提取第一页中的项。这是5倍(与页面的数量一样多)。import scrapyimport timefromselenium import webdriver name

浏览 2提问于2020-11-05得票数 0

2回答

Scrapy支持JavaScript进行网络爬行吗？

、、、

我听说scrapy不支持javascript。我想知道我是否可以使用scrapy抓取我们内部网站的链接，我们的内部网站有javascript，我相信当你点击一个链接时它就会生成，但我不是100%确定。但视图源是由xml-stylesheet组成的，当我使用firebug时，它的数据与html相同。我也不能使用html标记来抓取站点，我需要使用xml标记才能抓取。我知道我可以使用xml标记抓取第一个页面，但是我能继续跟踪链接并继续抓取吗？我还能不能用scrapy

浏览 2提问于2013-07-16得票数 0

1回答

如何利用Scrapy对非Selenium请求的并发性

、、

我正在写一个Scrapy网络刮板从网站上获取产品。目录页使用延迟加载，这意味着我不能获得超过前12个项目，也不能使用默认Scrapy分页。我已经开始在无头chrome客户端上使用Selenium，以便手动滚动页面以获取数据。我在网上读到，使用Scrapy + Selenium意味着我不能同时运行Scrapy请求，这很不幸，因为我的绝大多数请求都不需要Seleniu

浏览 3提问于2020-02-18得票数 0

1回答

如何处理元素状态更改后的ajax响应？

、、、

就是这里我想用Scrapy来截取它，但是我没有得到这个小字符串，而是得到了整个页面。

浏览 4提问于2014-02-11得票数 0

1回答

scrapy-splash返回它自己的标头，而不是站点的原始标头。

、、、

现在我需要的是维护会话，所以我使用scrapy.downloadermiddlewares.cookies.CookiesMiddleware，它处理set-cookie头。我知道它处理set-cookie头，因为我设置了COOKIES_DEBUG=True，这会导致CookeMiddleware有关set-cookie头的输出。问题是:当我将splash添加到图片中时，set-cookie打印就会消失，而实际上，作为响应头，我得到的是{'Date'：'Su

浏览 1提问于2016-09-25得票数 7

回答已采纳

1回答

抓取外壳看起来不同于用户界面，网站的一部分是不可抓取的

、、、、

如果我使用chrome devmode，我无法在xpath或选择器中复制正确的位置。

浏览 24提问于2019-04-24得票数 0

回答已采纳

1回答

为scrapy* shell请求设置标头*

、

我知道你可以通过scrapy shell -s USER_AGENT='custom user agent' 'http://www.example.com'来改变USER_AGENT，但是如何添加请求头呢

浏览 1提问于2016-05-04得票数 20

回答已采纳

1回答

无法抓取Javascript网站- API调用/ XHR请求

、、、、

我需要从使用XHR请求发送到服务器的API调用中获取学校列表，该请求获取JSON对象我使用与XHR请求相同的请求头，包括Cookie值。不确定为什么它不工作。它基本上会给出超时错误。附加来自google chrome请求标题(网络选项卡)的Python代码和屏幕截图，以及来自vs代码术语的错误： # -*- coding: utf-8 -*-importjson c

浏览 24提问于2020-11-24得票数 0

1回答

从需要headers={“用户代理”、“cookie”、x-xsrf-token'}的主机获取json数据。

、、、

有一个包含json数据集的服务器，我需要一个json数据集，我需要'user-agent'I ，我可以手动使用登录到url，并使用chrome developer工具来读取上述json data 的请求头我确定，应该发送到json端点的最低要求的头是'cookie‘、’xsrf token‘、不知道如何获得这些值，这样我就可以自动获取这些数据。我想使用请求模块获取我尝试

浏览 9提问于2019-11-14得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云