腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
使用
scrapy
下载
内容
并
保
存到
列表
中
、
我正在尝试将此网页
中
的
内容
下载
到
列表
中
,但我对
scrapy
还不熟悉,
列表
返回为空。有人能帮我确定错误在哪里吗,或者我应该采取不同的做法?/div/div[3]/div[1]/article/section[1]/div[1]/div/div/text()').get() from
scrapy
impo
浏览 7
提问于2020-02-27
得票数 1
回答已采纳
1
回答
将url链接解析为
列表
、
我已经
使用
scrapy
创建了一个爬行器,我正在尝试将
下载
链接保
存到
一个(python)
列表
中
,所以我以后可以
使用
downloadlist[1]调用一个
列表
条目。但是
scrapy
将urls保存为项而不是
列表
。是否有方法将每个url附加到
列表
中
?from
scrapy
.selector import HtmlXPathSelector from
scrapy<
浏览 0
提问于2017-04-03
得票数 1
回答已采纳
1
回答
刮取检查是否刮过url,返回任何可
下载
的文件
、
、
我想要做一个小的刮刀,它可以刮除页面上所有的Url,然后一个一个地点击它们,如果Url返回任何可
下载
的任何扩展名文件,然后
下载
并
保
存到
指定的位置。下面是我编写的代码:items.py file =
scrapy
.Field()spider.py from
scrapy
im
浏览 3
提问于2016-05-19
得票数 1
1
回答
刮除-从图像url
列表
下载
图像
Scrapy
有帮助
下载
图像的。这个过程是 Spider:启动一个链接
并
解析响应
中
的所有图像urls,并将图像urls保
存到
项
中
。但是,如果我不需要蜘蛛部件并且可以
下载
100 k图像URL(例如从redis读取URL),我如何直接调用ImagePipeline来
下载
图像呢?我知道我可以简单地在蜘蛛中发出请求
并
保存响应,但是我想看看是否有方法
使用
默认的ImagesPipeline直接保存图像。
浏览 0
提问于2016-03-15
得票数 2
2
回答
抓取论坛,项目管道和请求处理器之间的同步策略
、
、
、
、
我正试图从一个论坛
中
解析某个类别
中
的所有帖子。我浏览论坛的策略如下:我很难弄清楚如何对第3步进行排序,我正在
使用
以下两个对象(最后列出)来帮助排序逻辑。topic类表示特定主题
列表
页
中
的所有主题,阶段1的末尾表示已发送到数
浏览 4
提问于2012-06-23
得票数 2
回答已采纳
1
回答
终止
scrapy
并
保留输出文件
、
如何终止爬行器
并
保存输出的json文件。我的经验是,强制终止将导致没有输出文件被保存。有什么建议吗? pkill可以保存输出文件吗?
浏览 0
提问于2018-09-13
得票数 1
2
回答
如何处理一个残缺项目中的各种异常,在errback和callback
中
?
、
我已经实现了基本的爬行器,现在我可以成功地处理99%的请求,但我可能会得到像captcha、50x、30x这样的错误,甚至在结果
中
没有足够的字段(然后我将尝试另一个网站来查找缺少的字段)。起初,我认为在解析回调
中
引发异常并在errback
中
处理它们更“合乎逻辑”,这可以使代码更具可读性。但我只想找出errback只能捕获
下载
器模块
中
的错误,比如非200响应状态。如果我在回调
中
引发一个自实现的ParseError,爬行器就会引发它
并
停止。 即使我必须在回调中直接处理解析请
浏览 1
提问于2012-06-17
得票数 11
2
回答
请求没有通过中间件进行代理。
、
、
、
我用
scrapy
编写了一个脚本,以使请求通过自定义中间件,以便对该请求进行代理。但是,脚本似乎对中间件没有任何影响。我
使用
了CrawlerProcess来运行脚本。spider包含:from
scrapy
.crawler import CrawlerProcess request.meta['proxy'] = 'http://
浏览 0
提问于2019-04-30
得票数 1
回答已采纳
4
回答
在PyCharm
中
安装
Scrapy
库时出错
、
我可以安装其他包,但不能安装
Scrapy
。我得到以下错误: warning: build_py: byte-compiling is disabled, skipping.
浏览 7
提问于2017-06-01
得票数 2
1
回答
为什么
下载
的文件号不等于日志文件
中
url的行数?
、
平台: debian8 + python3.6 +
scrapy
1.3.2。请在网页上
下载
7z文件。 import
scrapy
CONCURRENT_REQUESTS_PER_SPIDER, open('/home/data/
浏览 3
提问于2017-02-20
得票数 0
回答已采纳
2
回答
scrapy
ratemyprofessor
、
我刚接触
scrapy
,已经在这个简单的程序上花了很多时间,但我搞不懂。我
使用
chrome检查此页面中所有教授的链接的x路径,
并
使用
控制台测试xpath。import
scrapy
from
scrapy
.contrib.spiders import Rule class scrap
浏览 4
提问于2016-03-18
得票数 0
1
回答
从polygon api转储json响应的有效方法是什么?
、
、
、
我正在从polygon应用程序接口
下载
数据,在检查了documentation之后,我意识到在响应大小方面存在某种速率限制,每个请求包含5000条记录。假设我需要
下载
几个月的数据,看起来没有一个单一的解决方案可以一次获取指定时间段的所有数据。下面是我
使用
requests.get('query').json()获得的4天数据点的响应 { "status":"OK", "queryCo
浏览 22
提问于2020-09-07
得票数 2
回答已采纳
1
回答
使用
网站上多个搜索栏
中
的单个搜索栏的Python脚本
、
、
我有一个包含230个晶体结构空间组(字符串)的
列表
。我想写一个python脚本来从中为每个组提取文件。我想让脚本迭代地搜索"Cell Parameters and Symmetry“搜索选项
中
的所有空间组,然后
下载
某个结构的文件(比如第一个)。我的
列表
的一个示例看起来类似于spaceGroups = ["A-1","A2","A2/a","A2/m","..."]。组1的搜索格式看起来像这样,s
浏览 0
提问于2020-01-14
得票数 0
1
回答
将
Scrapy
指向本地缓存,而不是执行正常的爬行过程
、
、
我
使用
管道将
Scrapy
爬行
中
的文档缓
存到
数据库
中
,这样,如果我更改了项目解析逻辑,就可以重新解析它们,而不必再次访问服务器。 让
Scrapy
从缓存
中
处理而不是尝试执行常规抓取的最好方法是什么?我喜欢
scrapy
对CSS和XPath选择器的支持,否则我会用lxml解析器单独访问数据库。有一段时间,我根本没有缓存文档并以正常的方式
使用
Scrapy
-即时解析项目-但我发现更改项目逻辑需要耗费大量的时间和资源。相反,我现
浏览 1
提问于2015-09-05
得票数 3
1
回答
是否可以通过
Scrapy
选择器修改响应
内容
?
、
、
我
使用
Scrapy
在一个页面上深拷贝一些
内容
,抓取
内容
并
下载
该
内容
中
的图像,
并
相应地更新图像的原始值。例如,我有: <img original="example1.com/1/1.png"></img>我需要
下载
图像
并
浏览 2
提问于2016-03-02
得票数 1
回答已采纳
1
回答
wget -将
下载
保
存到
一个文件
中
,然后将进度
下载
到另一个文件
我的脚本
下载
一个URL
列表
并将其保
存到
一个文件
中
。我对
下载
的
内容
做了一些处理,然后移到下一个
列表
。下面是我
使用
wget
下载
URL
列表
的方式:
列表
中有多个URL被重定向,但我不想
下载
重定向URL,我只想将这个URL保
存到
一个文件
中
。这样做的一种方法是将wget的进度保
存到
浏览 2
提问于2017-12-28
得票数 1
回答已采纳
1
回答
python抓取返回项到控制器
、
、
、
我需要在Django REST控制器
中
做一些短期的实时抓取
并
返回结果数据。class Product(
scrapy
.Item): price =
scrapy
.Field()from rest_
浏览 3
提问于2016-12-30
得票数 3
2
回答
生产服务器上的刮擦图像问题
、
、
我有一个从网站
下载
图片的脚本。本地工作非常完美,而且在生产服务器上也是如此,但是尽管没有收到任何错误,但不要保存图像。这是生产服务器上的输出:2013-07-10 0533, 367609)}我注意到的不同之处是,我的项目上的“图像”变量是空
列表
BGT
浏览 3
提问于2013-07-10
得票数 1
回答已采纳
2
回答
抓取
下载
的文件名
、
、
我有一个蜘蛛访问一个页面,
并
下载
一个文件。最后,我希望将文件的名称以及其他有用的信息写入db表。->现在,我正在努力弄到文件名:import
scrapy
print(item['district']) print(item['files']
浏览 0
提问于2017-08-21
得票数 0
回答已采纳
1
回答
如何
使用
python
scrapy
下载
、
、
我得到了网址
列表
,但图片没有
下载
。import
scrapy
start_urls():在第一项
中
,我这样做了:
浏览 1
提问于2020-04-14
得票数 0
点击加载更多
相关
资讯
剪辑圈自媒体分享:怎么找视频素材并下载视频保存到本地,视频下载工具正确使用教程
Python爬虫入门,快速抓取大规模数据6
Python爬虫学习Scrapy之Spiders
Scrapy框架的使用之Item Pipeline的用法
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券