如何在Python Scrapy http请求上设置cookie？

文章/答案/技术大牛

发布

1回答

python、cookies、scrapy

我有下面的代码在python scrapy抓取一个网站与一个cookie在请求头部。upgrade-insecure-requests": "1", }但是，在日志中

浏览 18提问于2020-06-07得票数 0

回答已采纳

2回答

从Splash请求读取cookie

python、scrapy、scrapy-splash、splash-js-render

在使用Splash提出请求之后，我正在尝试访问cookie。下面是我如何构建请求的方法。=splash.args.http_method, })# Downl

浏览 2提问于2017-01-03得票数 4

3回答

我想废弃，这个网站首先以阿拉伯语开始，它将语言设置存储在cookies中。如果您尝试通过URL ()直接访问语言版本，则会出现问题并返回服务器错误。因此，我想将Cookie值"store_language“设置为"en"，然后使用此Cookie值开始销毁网站。from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPa

浏览 2提问于2012-05-20得票数 21

1回答

如何使用Scrapy或其他更简单的方法获取所有第三方cookie？

python、selenium、cookies、scrapy、web-crawler

我希望使用Python获取域上的所有cookie，包括第三方cookie，如嵌入式视频或Google。我第一次使用Scrapy来检查HTTP头中的"Set-Cookie“字段，但是我只能得到第一批Cookie。然后，我尝试Scrapy+Selenium+Chromedriver加载所有js以获取所有cookie。然而，这是非常缓慢的。我找到了这篇文章，并尝试了PhantomJS： --我做

浏览 4提问于2017-06-26得票数 0

回答已采纳

1回答

scrapy-splash返回它自己的标头，而不是站点的原始标头。

python、scrapy、scrapy-splash、splash-js-render

现在我需要的是维护会话，所以我使用scrapy.downloadermiddlewares.cookies.CookiesMiddleware，它处理set-cookie头。我知道它处理set-cookie头，因为我设置了COOKIES_DEBUG=True，这会导致CookeMiddleware有关set-cookie头的输出。问题是:当我将splash添加到图片中时，set-cookie打印就会消失，而实际上，作为响应头，我得到的是{'Date'

浏览 1提问于2016-09-25得票数 7

回答已采纳

1回答

Scrapy FormRequest.from_response()方法

python、scrapy

Im正在尝试使用Scrapy解析页面，为了显示隐藏的文本和价格，我在字段中输入了任意的邮政编码或随机数字：from scrapy.http.request import Requestfrom scrapy.spidersimp

浏览 0提问于2016-11-30得票数 3

1回答

在刮伤之间保存饼干

scrapy

每天我运行刮刮，第一个请求总是被重定向到网站主页，因为它似乎还没有设置任何cookie。然而，在第一个请求之后，scrapy收到了cookie，从那时起就可以正常工作了。然而，这使我很难使用工具，如“刮除视图”等与任何特定的网址，因为网站将始终重定向到主页，这是刮刮将打开在我的浏览器。 scrapy可以保存cookie并指定在所有擦伤中使用它吗？

浏览 2提问于2014-08-02得票数 5

5回答

如何发送带有粗糙CrawlSpider请求的cookie？

python、cookies、web-scraping、scrapy

我正在尝试使用Python的框架来创建这个刮刀器。所以，我一直试图发送一个饼干，每一个请求蜘蛛提出，但，这是不可行的。这里有人能告诉我怎么做吗？或者我做错了什么？from scrapy import S

浏览 0提问于2015-09-17得票数 22

回答已采纳

1回答

使用Scrapy获取开始请求时出错

python、scrapy

import scrapy name = "sneakers" def start_requestspage=3", for url in urls: yield scrapy.Request(url = url, callback

浏览 4提问于2020-10-21得票数 1

回答已采纳

3回答

如何发送在Scrapy中启用的JavaScript和Cookie？

python、screen-scraping、mechanize、scrapy

我正在刮一个网站使用Scrapy，这需要烹饪和java-script才能启用。我不认为我必须实际处理javascript。我所要做的就是假装javascript已经启用。这是我尝试过的: 1)通过以下设置启用CookieCOOKIES_DEBUG = TrueDOWNLOADER_MIDDLEWARES= { 'scrapy.contrib.downloadermiddleware.useragent.U

浏览 0提问于2013-05-06得票数 9

1回答

刮伤- AjaxMethod不可用

python、ajax、scrapy、web-crawler、ajaxpro

但是当在Scrapy中完成时，我得到“这个方法要么没有用AjaxMethod标记，要么不可用。”下面是使用的shell命令：request=FormRequest(url='https://www.carwale.comisGSDClick":"","isRecommended":"","isCertif

浏览 2提问于2017-04-18得票数 1

回答已采纳

1回答

Scrapy到底在哪里做html请求呢？

python、web-scraping、scrapy

我在Python3中使用Scrapy (Scrapy==1.6.0)库。我想知道，在代码中Scrapy实际上在哪里做HTML请求？我想在那里设置一个断点，这样我就可以确切地看到实际传递的是什么头/cookie/ urls /和用户代理。另外，响应的确切位置也是一样的？熟悉scrapy库的人能告诉我在代码中我可以检查这些参数的确切位置吗？

浏览 12提问于2019-03-14得票数 0

2回答

iTunes的AppStore出现问题

app-store、itunes、screen-scraping、scrapy

我正在使用Scrapy从iTunes的AppStore数据库中获取一些数据。我从下面的应用程序列表开始：from scrapy.contrib.spiders import CrawlSpider回溯(最近一次调用)：文件"/usr/lib/python2.5/cook

浏览 0提问于2010-04-11得票数 2

1回答

scrapy-splash脚本找不到CSS选择器

scrapy、splash-screen、scrapy-splash

我之所以使用splash，是因为carousel是由javascript创建的，而常规的请求和解析不会在html中显示它。我的问题是，我没有得到任何数据到我的‘项目’字典。import scrapy name =我已经按照下面的描述填写了设置文件：好了，通过如下设置cookie，我已经能够让Splash的本地主

浏览 0提问于2017-07-05得票数 0

6回答

刮取-如何管理cookie/会话

python、session、cookies、session-cookies、scrapy

对于cookies如何与Scrapy一起工作，以及您如何管理这些cookie，我有点困惑。当你访问网站时，你会得到一个会话曲奇。每个FormRequests和随后的子请求都需要有自己的会话，因此需要有自己的单独的cookiejar和自己的会话cookie。如果cookies是在每只蜘蛛

浏览 7提问于2011-02-12得票数 62

回答已采纳

1回答

如何运行并保存python脚本中的scrapy状态

python、python-2.7、web-scraping、scrapy、scrapy-spider

在scrapy项目中，我们可以通过为eg设置JOBDIR来定义作业目录，从而获得持久性支持。scrapy crawl somespider -s JOBDIR=crawls/somespider-1 但是，如何在使用scrapy.crawler.CrawlerProcess从python脚本运行蜘蛛时也这样做，如中所回答的那样

浏览 0提问于2018-05-03得票数 2

回答已采纳

7回答

用本地系统中保存的html抓取文件

python、scrapy

例如，我有一个站点"www.example.com"，实际上我想通过保存到本地系统来抓取这个站点的html。scheme in request url: example.html有没有人可以建议我如何在

浏览 0提问于2012-06-05得票数 31

1回答

使用Scrapy查找所有cookies

python、cookies、scrapy、web-crawler

我用Scrapy制作了一个网络爬虫，它将访问URL列表，并返回这些域中的所有cookie，包括那些由第三方设置的cookie。此爬行器跟踪给定URL上的所有链接，并将每个cookie写入单独的文本文件中：from scrapy.contrib.spidersurl= Field() na

浏览 1提问于2017-04-26得票数 1

1回答

当使用Privoxy代理Tor时，Scrapy会得到NoneType错误

python、proxy、scrapy、polipo

://thehiddenwiki.org> File "/usr/local/lib/python2.7/dist-packages/scrapy/core&#

浏览 3提问于2016-07-14得票数 6

回答已采纳

2回答

重试中间件的刮集延迟

python、docker、scrapy、splash-screen

我使用的是Scrapy-splash，我的内存有问题。我可以清楚地看到，docker python3使用的内存在逐渐增加，直到PC冻结。因此，有一个方法可以将maxrss设置为一些合理的值。当RAM使用有此值时，将重新启动停靠器，以便刷新RAM。但问题是，当docker关闭时，scrapy继续发送请求，因此有几个urls没有被刮掉。Retry中间件正在尝试重试这些请求，然后放弃。[scrapy.downloadermiddlewares.retry] DEBUG: R

浏览 2提问于2019-03-30得票数 2

点击加载更多