使用scrapy下载内容并保存到列表中

文章/答案/技术大牛

发布

2回答

、

我正在尝试将此网页中的内容下载到列表中，但我对scrapy还不熟悉，列表返回为空。有人能帮我确定错误在哪里吗，或者我应该采取不同的做法？/div/div[3]/div[1]/article/section[1]/div[1]/div/div/text()').get() from scrapyimpo

浏览 7提问于2020-02-27得票数 1

回答已采纳

1回答

将url链接解析为列表

、

我已经使用scrapy创建了一个爬行器，我正在尝试将下载链接保存到一个(python)列表中，所以我以后可以使用downloadlist[1]调用一个列表条目。但是scrapy将urls保存为项而不是列表。是否有方法将每个url附加到列表中？from scrapy.selector import HtmlXPathSelector from scrapy<

浏览 0提问于2017-04-03得票数 1

回答已采纳

1回答

刮取检查是否刮过url，返回任何可下载的文件

、、

我想要做一个小的刮刀，它可以刮除页面上所有的Url，然后一个一个地点击它们，如果Url返回任何可下载的任何扩展名文件，然后下载并保存到指定的位置。下面是我编写的代码：items.py file = scrapy.Field()spider.py from scrapy im

浏览 3提问于2016-05-19得票数 1

1回答

刮除-从图像url列表下载图像

Scrapy有帮助下载图像的。这个过程是 Spider:启动一个链接并解析响应中的所有图像urls，并将图像urls保存到项中。但是，如果我不需要蜘蛛部件并且可以下载100 k图像URL(例如从redis读取URL)，我如何直接调用ImagePipeline来下载图像呢？我知道我可以简单地在蜘蛛中发出请求并保存响应，但是我想看看是否有方法使用默认的ImagesPipeline直接保存图像。

浏览 0提问于2016-03-15得票数 2

2回答

抓取论坛，项目管道和请求处理器之间的同步策略

、、、、

我正试图从一个论坛中解析某个类别中的所有帖子。我浏览论坛的策略如下：我很难弄清楚如何对第3步进行排序，我正在使用以下两个对象(最后列出)来帮助排序逻辑。topic类表示特定主题列表页中的所有主题，阶段1的末尾表示已发送到数

浏览 4提问于2012-06-23得票数 2

回答已采纳

1回答

终止scrapy并保留输出文件

、

如何终止爬行器并保存输出的json文件。我的经验是，强制终止将导致没有输出文件被保存。有什么建议吗？ pkill可以保存输出文件吗？

浏览 0提问于2018-09-13得票数 1

2回答

如何处理一个残缺项目中的各种异常，在errback和callback中？

、

我已经实现了基本的爬行器，现在我可以成功地处理99%的请求，但我可能会得到像captcha、50x、30x这样的错误，甚至在结果中没有足够的字段(然后我将尝试另一个网站来查找缺少的字段)。起初，我认为在解析回调中引发异常并在errback中处理它们更“合乎逻辑”，这可以使代码更具可读性。但我只想找出errback只能捕获下载器模块中的错误，比如非200响应状态。如果我在回调中引发一个自实现的ParseError，爬行器就会引发它并停止。即使我必须在回调中直接处理解析请

浏览 1提问于2012-06-17得票数 11

2回答

请求没有通过中间件进行代理。

、、、

我用scrapy编写了一个脚本，以使请求通过自定义中间件，以便对该请求进行代理。但是，脚本似乎对中间件没有任何影响。我使用了CrawlerProcess来运行脚本。spider包含：from scrapy.crawler import CrawlerProcess request.meta['proxy'] = 'http://

浏览 0提问于2019-04-30得票数 1

回答已采纳

4回答

在PyCharm中安装Scrapy库时出错

、

我可以安装其他包，但不能安装Scrapy。我得到以下错误： warning: build_py: byte-compiling is disabled, skipping.

浏览 7提问于2017-06-01得票数 2

1回答

为什么下载的文件号不等于日志文件中url的行数？

、

平台: debian8 + python3.6 + scrapy 1.3.2。请在网页上下载7z文件。 import scrapyCONCURRENT_REQUESTS_PER_SPIDER， open('/home/data/

浏览 3提问于2017-02-20得票数 0

回答已采纳

2回答

scrapy ratemyprofessor

、

我刚接触scrapy，已经在这个简单的程序上花了很多时间，但我搞不懂。我使用chrome检查此页面中所有教授的链接的x路径，并使用控制台测试xpath。import scrapy from scrapy.contrib.spiders import Rule class scrap

浏览 4提问于2016-03-18得票数 0

1回答

从polygon api转储json响应的有效方法是什么？

、、、

我正在从polygon应用程序接口下载数据，在检查了documentation之后，我意识到在响应大小方面存在某种速率限制，每个请求包含5000条记录。假设我需要下载几个月的数据，看起来没有一个单一的解决方案可以一次获取指定时间段的所有数据。下面是我使用requests.get('query').json()获得的4天数据点的响应 { "status":"OK", "queryCo

浏览 22提问于2020-09-07得票数 2

回答已采纳

1回答

使用网站上多个搜索栏中的单个搜索栏的Python脚本

、、

我有一个包含230个晶体结构空间组(字符串)的列表。我想写一个python脚本来从中为每个组提取文件。我想让脚本迭代地搜索"Cell Parameters and Symmetry“搜索选项中的所有空间组，然后下载某个结构的文件(比如第一个)。我的列表的一个示例看起来类似于spaceGroups = ["A-1","A2","A2/a","A2/m","..."]。组1的搜索格式看起来像这样，s

浏览 0提问于2020-01-14得票数 0

1回答

将Scrapy指向本地缓存，而不是执行正常的爬行过程

、、

我使用管道将Scrapy爬行中的文档缓存到数据库中，这样，如果我更改了项目解析逻辑，就可以重新解析它们，而不必再次访问服务器。让Scrapy从缓存中处理而不是尝试执行常规抓取的最好方法是什么？我喜欢scrapy对CSS和XPath选择器的支持，否则我会用lxml解析器单独访问数据库。有一段时间，我根本没有缓存文档并以正常的方式使用Scrapy -即时解析项目-但我发现更改项目逻辑需要耗费大量的时间和资源。相反，我现

浏览 1提问于2015-09-05得票数 3

1回答

是否可以通过Scrapy选择器修改响应内容？

、、

我使用Scrapy在一个页面上深拷贝一些内容，抓取内容并下载该内容中的图像，并相应地更新图像的原始值。例如，我有： <img original="example1.com/1/1.png"></img>我需要下载图像并

浏览 2提问于2016-03-02得票数 1

回答已采纳

1回答

wget -将下载保存到一个文件中，然后将进度下载到另一个文件

我的脚本下载一个URL列表并将其保存到一个文件中。我对下载的内容做了一些处理，然后移到下一个列表。下面是我使用wget下载URL列表的方式：列表中有多个URL被重定向，但我不想下载重定向URL，我只想将这个URL保存到一个文件中。这样做的一种方法是将wget的进度保存到

浏览 2提问于2017-12-28得票数 1

回答已采纳

1回答

python抓取返回项到控制器

、、、

我需要在Django REST控制器中做一些短期的实时抓取并返回结果数据。class Product(scrapy.Item): price = scrapy.Field()from rest_

浏览 3提问于2016-12-30得票数 3

2回答

生产服务器上的刮擦图像问题

、、

我有一个从网站下载图片的脚本。本地工作非常完美，而且在生产服务器上也是如此，但是尽管没有收到任何错误，但不要保存图像。这是生产服务器上的输出：2013-07-10 0533, 367609)}我注意到的不同之处是，我的项目上的“图像”变量是空列表BGT

浏览 3提问于2013-07-10得票数 1

回答已采纳

2回答

抓取下载的文件名

、、

我有一个蜘蛛访问一个页面，并下载一个文件。最后，我希望将文件的名称以及其他有用的信息写入db表。->现在，我正在努力弄到文件名：import scrapy print(item['district']) print(item['files']

浏览 0提问于2017-08-21得票数 0

回答已采纳

1回答

如何使用python scrapy下载

、、

我得到了网址列表，但图片没有下载。import scrapy start_urls():在第一项中，我这样做了：

浏览 1提问于2020-04-14得票数 0

点击加载更多