Scrapy:从get请求中抓取数据

文章/答案/技术大牛

发布

2回答

、、、、

我正在尝试用scrapy从中抓取数据。但是当我在shell中尝试view( response )时，一些响应丢失了。当我打开chrome dev工具时，我分析了网络，并意识到我正在搜索的数据来自get请求，其中对它的响应是一个包含我需要的数据的json文件。但是请求失败的原因是有没有办法在scrapy中手动执行get请求来获取json文件？

浏览 38提问于2019-08-10得票数 0

回答已采纳

0回答

Scrapy跟随链接未获取数据

、、

我试图用一个简单的抓取蜘蛛来跟踪一个链接列表，并从每个链接中删除数据，但我遇到了麻烦。在scrapy shell中，当我重新创建脚本时，它会发送新url的get请求，但是当我运行爬网时，我没有从链接中得到任何数据。我得到的唯一数据是从链接之前抓取的起始url。如何从链接中抓取数据？import

浏览 4提问于2017-11-26得票数 0

回答已采纳

1回答

Python requests.post的刮伤版

、、、

我正在对特定端点执行请求，使用python请求添加一些头和json。但是，由于我正在编码的存储库的体系结构是基于scrapy的，所以我想提出相同的请求，但要翻译为scrapyjson_data = { 'page_sizeschool_ids': [ ], 'curriculum_ids': N

浏览 5提问于2022-10-11得票数 0

1回答

返回django Rest api Get上的抓取蜘蛛响应

、、、

我正在工作--它包含一个带有几个参数suchas (航空公司代码和航班日期)的GET请求，我将这些参数传递给使用scrapy编码的爬虫。我已经在管理/命令中创建了Django命令来访问抓取爬虫，并且在完成抓取操作之后，将数据保存在特定的模型中。由于我想将保存的数据返回到相同的GET请求，所以我有几个关于它的问题。如何在GET请求中返回<

浏览 9提问于2022-08-15得票数 1

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

2回答

我用Scrapy创建了一个从Yelp抓取数据的爬虫。所有请求都通过Crawlera代理。Spider获取要抓取的URL，发送请求，然后抓取数据。直到有一天，我开始收到502无响应。执行以下代码行后，将显示502无响应： r = self.req_session.get(url, proxies=self.proxies, verify='..crawlera-ca.crt').text 回溯： 2

浏览 29提问于2020-11-04得票数 0

2回答

抓取蜘蛛从链接中随机抓取数据为什么？

、

首先，我从网站上抓取了所有的硬币链接，并要求那些链接。但是scrapy没有串行地请求从链接list.after请求这些链接抓取数据成功，但当保存到csv文件时，它使一个完整的抓取项目后每一次都是一个空行。我期待它将从链接列表中串行请求，它不会使任何空白row.how我能做到吗？我使用的是python 3.6和scrapy版本1.5.1import scrapy

浏览 3提问于2018-12-02得票数 0

1回答

抓取请求不像在浏览器中那样工作

、、、

我在试着从foodie.fi上抓取数据。当我从浏览器中选择region时，它会发出请求并返回json作为200状态的响应。但是当我试图从scrapy发出同样的请求时，它会将我重定向到错误的页面(状态302)。第一个请求是列出区域。第二个请求是选择region (这个<em

浏览 0提问于2015-08-05得票数 1

3回答

Scrapy pause/resume是如何工作的？

有人能给我解释一下Scrapy中的暂停/恢复功能是如何工作的吗？没有提供太多细节。spider = SampleSpider()settings.set('JOBDIR', '/some/path/scrapy_cache但是，下次运行爬行器时，将重新生成请求，并将(重复的) SHA1散列添加到文件中

浏览 0提问于2015-03-04得票数 8

2回答

如何在div中获取文本

、

看看这个网页： details = response.xpath('.//div[@class="detail"]/text()').extract()

浏览 1提问于2019-07-25得票数 1

3回答

在使用Scrapy进行抓取之前，检查URL是否在文件中

、、

我正在抓取一个包含URL列表的大文件。显然，我不能连续地抓取所有的URL。我当前的解决方案从文件中读取URL。，程序从URL的原始文本文件开始，并开始重新搜索并使用相同的内容覆盖以前的下载。我尝试将代码放入爬行器中，以检查传递给解析函数的URL是否在"completed_urls.txt“文件中……但显然，随着完成的URL数量的增加，这是一个很长的检查。因此，我的问题是:当我重新启动程序时，如何才能记住哪个URL是要爬行的最后一个URL，并让爬虫从</

浏览 6提问于2019-10-11得票数 0

1回答

Python是否有可能进入每个产品页面并刮取数据？

、、

我对python和web抓取很陌生，我想知道是否有可能用刮伤从产品页面中抓取。示例:我在amazon.com上搜索监视器，我希望scrapy转到每个产品页面并从那里刮取，而不是只是从搜索结果页面中抓取数据。我正确地拥有了一个从搜索结果页面中抓取的刮擦项目，但是我想将它改进为从产品页面中刮取。jco-card-title::text').

浏览 3提问于2020-11-10得票数 0

回答已采纳

0回答

如何在同一位置使用Scrapy请求和获取响应？

、、

我正在编写抓取爬虫从电子商务网站抓取数据。该网站有颜色的变化，每个变化有自己的价格，大小和库存的大小。要获得变种的价格、尺寸和库存，需要访问变种的链接(颜色)。并且所有数据都需要在一条记录中。我尝试过使用请求，但速度很慢，有时无法加载页面。我已经使用requests.get()编写了爬虫程序，并在scrapy.selector.Selector()和解析数据中使用响应。我的问题是，是否有任何方法可以使用sc

浏览 2提问于2018-07-13得票数 3

1回答

在scrapy中启动请求中的http://url调用

、、、

我正在使用scrapy从网站上抓取数据 request = scrapy.Request(url="http://www.xxxxx.com",callback=self.parse ,dont_filter = True,)从start_requests请求url时，我遇到错误 raise SchemeNotSupported% (

浏览 2提问于2018-06-11得票数 1

1回答

为什么Scrapy中的数据没有完全加载视图(响应)？

、

我正试着用Scrapy从Youtube上收集一些评论。但是，当我进入scrapy shell模式并使用view(response)打开它时，除了加载旋转器之外，我找不到任何注释。scrapy shell https://www.youtube.com/watch?v=kkl7-NzqxWo在注释部分显示无限旋转器。

浏览 1提问于2018-12-01得票数 0

回答已采纳

0回答

抓取-按日期抓取链接

、、、

有没有可能通过与链接相关的日期来抓取链接？我正在尝试实现一个每日运行的爬行器，它将文章信息保存到数据库中，但我不想重新抓取我以前已经抓取过的文章--即昨天的文章。但是，这依赖于根据先前保存在数据库中的检查新请求。我假设，如果每天的抓取持续一段时间，那么数据库将需要大量的内存开销来存储已经抓取的请求指纹。因此，给出一个像这样的网站上的文章列表，我想要抓取今天发布的所

浏览 6提问于2017-06-15得票数 1

回答已采纳

1回答

在heroku上部署scrapy项目

、、、

我有一个抓取蜘蛛项目，它报废了一些网站，并获取我的数据上。我的爬行器生成两个JSON文件，所有抓取的数据都存储在这两个文件中。现在，我有一个flask web服务，它使用上述两个JSON文件来满足用户的请求。我想自动化这个过程，即scrapy项目应该每天运行，产生的JS

浏览 1提问于2014-04-24得票数 2

1回答

并发发送HTTP请求

、、

我希望向API端点发送100K-300K的POST请求-这些请求来自我正在迭代的JSON对象列表。不幸的是，我能使用的最大区块大小是一次10个事件，这大大降低了发送所有我想要的事件的速度。

浏览 12提问于2016-08-18得票数 1

2回答

如何理解scrapy.Request中的回调函数？

、、

我正在使用Python第二版阅读Web抓取，并希望使用Scrapy模块从网页中抓取信息。传入url并重新定位，就像

浏览 4提问于2020-07-04得票数 0

回答已采纳

2回答

无法使用刮伤认证fandromeda

、、

我刚开始刮刮网站上的一些数据，但我需要先进行身份验证，然后才能开始抓取所需的数据，如下所示 from scrapy.spiders import CrawlSpiderfrom我注意到，在默认情况下，scrapy正在发出get请求而不是post。2016

浏览 4提问于2016-12-01得票数 0

回答已采纳

点击加载更多