如何在python中发送带有scrapy或request的if-none-match头部？

、、、

我正在用Scrapy抓取一个站点，但它的一些API没有返回JSON数据，而没有'if-none-match‘头。我有超过100个API的列表，所以我想生成自动的头文件来获得一个有效的JSON文件。

浏览 27提问于2020-10-21得票数 1

1回答

如果资源是在初始请求中获得的，是什么使条件获得“条件”？

、、、、

分解条件获取的内容：在中，如果请求消息包含If-* (If-Modified-Since、If-Unmodified-Since、If-Match、If-None-Match或If-Range)头部字段例如，如果一个GET请求返回一个带有Etag头的响应，那么下一个请求必须包含带有ETag值的If-None-Match，以将客户机传输回所请求的资源。但是，如果客户端在获得返回的&

浏览 3提问于2015-11-12得票数 2

回答已采纳

2回答

"304 Not Modified“到底是怎么工作的？

、、、

浏览器如何确定对HTTP请求的响应是否为304？是由浏览器设置的还是从服务器发送的？如果由服务器发送，服务器如何知道缓存中的可用数据，以及如何将304设置为图像？我的猜测，如果它是由浏览器生成的：{} console.log(is_modif

浏览 56提问于2014-01-08得票数 187

回答已采纳

2回答

未收到报头抓取的ProxyMesh

、、、

我是Scrapy / ProxyMesh的新手。当我在Proxymesh网站上看到我的带宽消耗，并且meta.proxy在我的日志中是正确的时，我对ProxyMesh服务器的请求似乎正在工作。但是，当我在Scrapy中记录响应头时，我没有收到我应该收到的X-Proxymesh-IP。这是我的代码。我做错了什么？') self.proxy_ip = 'http:

浏览 0提问于2017-10-19得票数 0

1回答

Python Spider ConnectionError：(‘连接中止。’，BadStatusLine("''"，))

、、

我正在使用python-scrapy执行爬行过程。我已经尝试了几种解决方案，比如使用带有随机用户代理和没有引用或代理的头部，就像在其他一些帖子中推荐的那样，但爬虫总是失败。引发的错误是： 018-06-08 16:05:34 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www... >'A

浏览 0提问于2018-06-08得票数 0

1回答

抓取-动态等待页面加载- selenium + Scrapy

、、、

最近，我用python和Selenium制作了一个webscraper，我发现做起来非常简单。该页面使用ajax调用加载数据，并且我首先等待一个固定的time_out来加载该页面。有一段时间起作用了。我花了平均每页1.35秒的时间下载内容。1) sc

浏览 5提问于2017-09-18得票数 3

回答已采纳

1回答

如何从使用javascript扩展内容的页面中scrape所有信息？

、、

我在试着刮具有元素列表和底部可增加列表的展开按钮的页面。它使用onclick事件进行扩展，但我不知道如何激活它。我正在尝试使用scrapy-splash，因为我读到它可能会工作，但我不能让它正常工作。我目前正在尝试做的事情是这样的： def expand_page(self, response): page =response.request.url if len(expa

浏览 26提问于2020-08-03得票数 1

回答已采纳

2回答

如何让浏览器知道文件已经更新？ASP.NET MVC

、

我有一个IIS网站托管在ASP.NET中。有时我推送更改，用户的浏览器可能仍然使用以前的文件，导致功能问题。这是因为浏览器正在缓存这些文件，对吗？如何确保用户浏览器加载更新后的文件？？谢谢!

浏览 4提问于2010-06-10得票数 0

回答已采纳

2回答

Python yield和return语句？和Scrapy产生的请求

、

当我们在生成器中yield任何值或请求时，实际发生了什么？for index in range(3):这是在特定的url上发出请求，并在请求之后调用回调函数。代码所遵循的顺序是什么？

浏览 1提问于2012-01-09得票数 7

1回答

就像浏览器一样)，并且它传递了一个if-modified-since或if-none-match (或者其他任何东西)头部，导致第三方服务器使用304状态代码进行响应。现在，从技术上讲，服务器不应该发送正文，而客户端在接收到304之后并不关心响应正文。对于错误地发送带有304的响应体的服务器，在代理响应处理程序中执行此操作是否有意义(以及是否会节省带宽/资源)： var proxyReq = http.request

浏览 6提问于2014-12-30得票数 2

2回答

运行结果很差

刚刚开始使用Scrapy，我希望能在正确的方向上有所作为。我想从这里抓取数据： import scrapy name = 'sportstatsresults.append(result) print(result) 现在我需要转到下一个页面，我可以在浏览器中通过单击

浏览 2提问于2016-05-12得票数 0

1回答

使用scrapy从网站返回值

、、、

我正在使用Python中的scrapy，试图从网站中获取一个值，然后用于迭代。我遇到的问题是，它似乎只能发送请求超过产量，这使得它不可能得到一个值返回。class Spider(scrapy.Spider): allowed_domains = ['domain.com']

浏览 0提问于2014-12-08得票数 1

回答已采纳

2回答

请求和aiohttp之间不同的网页内容

、、、、

不幸的是，在切换到aiohttp后，网站构建的角度给我的响应没有动态内容。所以，我有两个问题如何用aiohttp修复代码以获得适当的内容？

浏览 5提问于2020-01-08得票数 1

回答已采纳

4回答

如何使用python* urllib2发送json数据进行登录*

、、

我想使用python来模拟登录操作，我使用urllib2捕获数据包，得到登录操作只是一个ajax请求，用户名和密码是作为json数据发送的，但我不知道如何使用urllib2发送json数据，帮助...

浏览 1提问于2010-12-04得票数 16

回答已采纳

1回答

我如何给UHD: USRP源一个命令，改变中心频率后，一些样本？

、、、

我需要发送一些数据从一个文件跳频USRP接收器和接收由USRP源。两种方法都必须在采样量过大后，同步并不断地改变频率。我如何判断(特别是) python代码中的USRP源代码来改变频率？is 'freq' => sets the frequency)； //现在将“命令”传递到USRP块的命令端口听起来像是改变它的方法。以及如<

浏览 0提问于2019-01-16得票数 0

5回答

如何发送带有粗糙CrawlSpider请求的cookie？

、、、

我正在尝试使用Python的框架来创建这个刮刀器。所以，我一直试图发送一个饼干，每一个请求蜘蛛提出，但，这是不可行的。这里有人能告诉我怎么做吗？或者我做错了什么？fr

浏览 0提问于2015-09-17得票数 22

回答已采纳

1回答

如何构建一个独立的Scrapy* Spider？*

、、

很抱歉转载，我之前帖子的标题令人困惑。在爬行器示例(下面的代码)中，我如何使用"pyinstaller“(或其他安装程序)来构建可执行文件(如myspidy.exe)，以便最终用户不需要在windows环境中安装scrapy和python？安装了Python和Scrapy之后，可以通过执行命令"scrapy crawl quotes“来运行爬行器。最终用户会在没有预装Python

浏览 0提问于2018-05-16得票数 1

2回答

如何理解scrapy.Request中的回调函数？

、、

我正在使用Python第二版阅读Web抓取，并希望使用Scrapy模块从网页中抓取信息。传递用于数据解析<

浏览 4提问于2020-07-04得票数 0

回答已采纳

2回答

第一次运行后刮掉的'twisted.internet.error.ReactorNotRestartable‘错误

、、、、

我正在使用CrawlerProcess从脚本中运行Scrapy (版本1.4.0)。Urls来自用户输入。58:46 [scrapy.statscollectors] INFO: Dumping Scrapy stats: 'downloader/python/crawlerapp/appenv/lib/python</e

浏览 3提问于2017-07-17得票数 3

1回答

将图像下载到绝对路径

、

,imageName)如何创建管道来将图像存储在我创建的绝对路径中，我检查了，但找不到改变存储位置的方法。注意:我更喜欢和scrapy在一起，而不是用requests下载图片。

浏览 0提问于2020-03-12得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如果资源是在初始请求中获得的，是什么使条件获得“条件”？

"304 Not Modified“到底是怎么工作的？

未收到报头抓取的ProxyMesh

Python Spider ConnectionError：(‘连接中止。’，BadStatusLine("''"，))

抓取-动态等待页面加载- selenium + Scrapy

如何从使用javascript扩展内容的页面中scrape所有信息？

如何让浏览器知道文件已经更新？ASP.NET MVC

Python yield和return语句？和Scrapy产生的请求

我应该在收到304后关闭代理连接吗？

运行结果很差

使用scrapy从网站返回值

请求和aiohttp之间不同的网页内容

如何使用python* urllib2发送json数据进行登录*

我如何给UHD: USRP源一个命令，改变中心频率后，一些样本？

如何发送带有粗糙CrawlSpider请求的cookie？

如何构建一个独立的Scrapy* Spider？*

如何理解scrapy.Request中的回调函数？

第一次运行后刮掉的'twisted.internet.error.ReactorNotRestartable‘错误

将图像下载到绝对路径

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐