腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
Scrapy
:
从
get
请求
中
抓取
数据
、
、
、
、
我正在尝试用
scrapy
从中
抓取
数据
。但是当我在shell
中
尝试view( response )时,一些响应丢失了。当我打开chrome dev工具时,我分析了网络,并意识到我正在搜索的
数据
来自
get
请求
,其中对它的响应是一个包含我需要的
数据
的json文件。但是
请求
失败的原因是 有没有办法在
scrapy
中
手动执行
get
请求
来获取json文件?
浏览 38
提问于2019-08-10
得票数 0
回答已采纳
0
回答
Scrapy
跟随链接未获取
数据
、
、
我试图用一个简单的
抓取
蜘蛛来跟踪一个链接列表,并从每个链接
中
删除
数据
,但我遇到了麻烦。在
scrapy
shell
中
,当我重新创建脚本时,它会发送新url的
get
请求
,但是当我运行爬网时,我没有
从
链接
中
得到任何
数据
。我得到的唯一
数据
是
从
链接之前
抓取
的起始url。如何
从
链接
中
抓取
数据
?import
浏览 4
提问于2017-11-26
得票数 0
回答已采纳
1
回答
Python requests.post的刮伤版
、
、
、
我正在对特定端点执行
请求
,使用python
请求
添加一些头和json。但是,由于我正在编码的存储库的体系结构是基于
scrapy
的,所以我想提出相同的
请求
,但要翻译为
scrapy
json_data = { 'page_sizeschool_ids': [ ], 'curriculum_ids': N
浏览 5
提问于2022-10-11
得票数 0
1
回答
返回django Rest api
Get
上的
抓取
蜘蛛响应
、
、
、
我正在工作--它包含一个带有几个参数suchas (航空公司代码和航班日期)的
GET
请求
,我将这些参数传递给使用
scrapy
编码的爬虫。我已经在管理/命令
中
创建了Django命令来访问
抓取
爬虫,并且在完成
抓取
操作之后,将
数据
保存在特定的模型
中
。由于我想将保存的
数据
返回到相同的
GET
请求
,所以我有几个关于它的问题。如何在
GET
请求
中
返回<
浏览 9
提问于2022-08-15
得票数 1
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
、
、
、
我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
2
回答
如何解析
Scrapy
请求
中
的502响应码?
、
、
、
我用
Scrapy
创建了一个
从
Yelp
抓取
数据
的爬虫。所有
请求
都通过Crawlera代理。Spider获取要
抓取
的URL,发送
请求
,然后
抓取
数据
。直到有一天,我开始收到502无响应。执行以下代码行后,将显示502无响应: r = self.req_session.
get
(url, proxies=self.proxies, verify='..crawlera-ca.crt').text 回溯: 2
浏览 29
提问于2020-11-04
得票数 0
2
回答
抓取
蜘蛛
从
链接
中
随机
抓取
数据
为什么?
、
首先,我
从
网站上
抓取
了所有的硬币链接,并要求那些链接。但是
scrapy
没有串行地
请求
从
链接list.after
请求
这些链接
抓取
数据
成功,但当保存到csv文件时,它使一个完整的
抓取
项目后每一次都是一个空行。我期待它将从链接列表
中
串行
请求
,它不会使任何空白row.how我能做到吗?我使用的是python 3.6和
scrapy
版本1.5.1import
scrapy
浏览 3
提问于2018-12-02
得票数 0
1
回答
抓取
请求
不像在浏览器
中
那样工作
、
、
、
我在试着
从
foodie.fi上
抓取
数据
。当我
从
浏览器中选择region时,它会发出
请求
并返回json作为200状态的响应。但是当我试图
从
scrapy
发出同样的
请求
时,它会将我重定向到错误的页面(状态302)。第一个
请求
是列出区域。 第二个
请求
是选择region (这个<em
浏览 0
提问于2015-08-05
得票数 1
3
回答
Scrapy
pause/resume是如何工作的?
有人能给我解释一下
Scrapy
中
的暂停/恢复功能是如何工作的吗?没有提供太多细节。spider = SampleSpider()settings.set('JOBDIR', '/some/path/
scrapy
_cache但是,下次运行爬行器时,将重新生成
请求
,并将(重复的) SHA1散列添加到文件
中
浏览 0
提问于2015-03-04
得票数 8
2
回答
如何在div
中
获取文本
、
看看这个网页: details = response.xpath('.//div[@class="detail"]/text()').extract()
浏览 1
提问于2019-07-25
得票数 1
3
回答
在使用
Scrapy
进行
抓取
之前,检查URL是否在文件
中
、
、
我正在
抓取
一个包含URL列表的大文件。显然,我不能连续地
抓取
所有的URL。我当前的解决方案
从
文件
中
读取URL。,程序
从
URL的原始文本文件开始,并开始重新搜索并使用相同的内容覆盖以前的下载。我尝试将代码放入爬行器
中
,以检查传递给解析函数的URL是否在"completed_urls.txt“文件
中
……但显然,随着完成的URL数量的增加,这是一个很长的检查。因此,我的问题是:当我重新启动程序时,如何才能记住哪个URL是要爬行的最后一个URL,并让爬虫
从</
浏览 6
提问于2019-10-11
得票数 0
1
回答
Python是否有可能进入每个产品页面并刮取
数据
?
、
、
我对python和web
抓取
很陌生,我想知道是否有可能用刮伤
从
产品页面
中
抓取
。示例:我在amazon.com上搜索监视器,我希望
scrapy
转到每个产品页面并从那里刮取,而不是只是
从
搜索结果页面
中
抓取
数据
。我正确地拥有了一个
从
搜索结果页面
中
抓取
的刮擦项目,但是我想将它改进为
从
产品页面
中
刮取。jco-card-title::text').
浏览 3
提问于2020-11-10
得票数 0
回答已采纳
0
回答
如何在同一位置使用
Scrapy
请求
和获取响应?
、
、
我正在编写
抓取
爬虫
从
电子商务网站
抓取
数据
。该网站有颜色的变化,每个变化有自己的价格,大小和库存的大小。要获得变种的价格、尺寸和库存,需要访问变种的链接(颜色)。并且所有
数据
都需要在一条记录
中
。我尝试过使用
请求
,但速度很慢,有时无法加载页面。 我已经使用requests.
get
()编写了爬虫程序,并在
scrapy
.selector.Selector()和解析
数据
中使用响应。我的问题是,是否有任何方法可以使用
sc
浏览 2
提问于2018-07-13
得票数 3
1
回答
在
scrapy
中
启动
请求
中
的http://url调用
、
、
、
我正在使用
scrapy
从
网站上
抓取
数据
request =
scrapy
.Request(url="http://www.xxxxx.com",callback=self.parse ,dont_filter = True,)
从
start_requests
请求
url时,我遇到错误 raise SchemeNotSupported% (
浏览 2
提问于2018-06-11
得票数 1
1
回答
为什么
Scrapy
中
的
数据
没有完全加载视图(响应)?
、
我正试着用
Scrapy
从
Youtube上收集一些评论。但是,当我进入
scrapy
shell模式并使用view(response)打开它时,除了加载旋转器之外,我找不到任何注释。
scrapy
shell https://www.youtube.com/watch?v=kkl7-NzqxWo在注释部分显示无限旋转器。
浏览 1
提问于2018-12-01
得票数 0
回答已采纳
0
回答
抓取
-按日期
抓取
链接
、
、
、
有没有可能通过与链接相关的日期来
抓取
链接?我正在尝试实现一个每日运行的爬行器,它将文章信息保存到
数据
库
中
,但我不想重新
抓取
我以前已经
抓取
过的文章--即昨天的文章。但是,这依赖于根据先前保存在
数据
库
中
的检查新
请求
。我假设,如果每天的
抓取
持续一段时间,那么
数据
库将需要大量的内存开销来存储已经
抓取
的
请求
指纹。因此,给出一个像这样的网站上的文章列表,我想要
抓取
今天发布的所
浏览 6
提问于2017-06-15
得票数 1
回答已采纳
1
回答
在heroku上部署
scrapy
项目
、
、
、
我有一个
抓取
蜘蛛项目,它报废了一些网站,并获取我的
数据
上。我的爬行器生成两个JSON文件,所有
抓取
的
数据
都存储在这两个文件
中
。现在,我有一个flask web服务,它使用上述两个JSON文件来满足用户的
请求
。我想自动化这个过程,即
scrapy
项目应该每天运行,产生的JS
浏览 1
提问于2014-04-24
得票数 2
1
回答
并发发送HTTP
请求
、
、
我希望向API端点发送100K-300K的POST
请求
-这些
请求
来自我正在迭代的JSON对象列表。不幸的是,我能使用的最大区块大小是一次10个事件,这大大降低了发送所有我想要的事件的速度。
浏览 12
提问于2016-08-18
得票数 1
2
回答
如何理解
scrapy
.Request
中
的回调函数?
、
、
我正在使用Python第二版阅读Web
抓取
,并希望使用
Scrapy
模块
从
网页
中
抓取
信息。 传入url并重新定位,就像
浏览 4
提问于2020-07-04
得票数 0
回答已采纳
2
回答
无法使用刮伤认证fandromeda
、
、
我刚开始刮刮网站上的一些
数据
,但我需要先进行身份验证,然后才能开始
抓取
所需的
数据
,如下所示 from
scrapy
.spiders import CrawlSpiderfrom我注意到,在默认情况下,
scrapy
正在发出
get
请求
而不是post。2016
浏览 4
提问于2016-12-01
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券