为什么scrapy不给我装任何管道？

、、

好了，我正在使用Scrapy进行一些基本的web抓取，它在抓取部分上工作得很好！当使用提要导出获得一些输出时，像-o output.csv这样的东西不会做任何事情，它只会生成一个空文件，而不会产生其他任何东西。在经历了一段时间的困惑之后，我不能让它工作，所以我决定使用管道来编写一些自定义的导出方法。但现在的问题是，即使应用程序运行良好...它只是没有加载管道。它们中的任何一个都没有运行，也没有错误。我想知道如何加载和工作我的管道？更新:我忘记提到我正在尝试运行这段代码

浏览 13提问于2020-12-29得票数 1

1回答

如何实现刮除管道中的计数器？

、

import CrawlSpider, Rulefrom scrapy.linkextractors import LinkExtractordefer.py", line 150, in result = f(*args, **kw) return receiver(*arg

浏览 5提问于2015-12-24得票数 2

回答已采纳

3回答

迫使蜘蛛在刮痕处停下来

、

我在一个项目中有20个蜘蛛，每个蜘蛛都有不同的任务和URL来爬行(但是数据是相似的，我对它们都使用共享的items.py和pipelines.py )，顺便说一句，如果某些条件满足指定的蜘蛛停止爬行，那么我希望在管道类中, return itemimport scrapy class ZhilevanSpider(scrapy</

浏览 0提问于2017-10-14得票数 3

回答已采纳

1回答

为什么scrapy不返回任何链接？

、、、、

我有一个过滤结果的链接： name = "bostadformedlingen" start_urls = ['https

浏览 2提问于2021-09-19得票数 1

回答已采纳

2回答

开始urls和域的Scrapy迭代

、、、

我正在尝试从csv读取urls和域的列表，并让Scrapy爬行器遍历域的列表并启动urls，目标是通过我的管道将该域中的所有urls导出到csv文件中。import scrapyfrom scrapy.linkextractors import LinkExtractorfrom NONPROF.items import NonprofItem from scrapy.http import Re

浏览 2提问于2018-02-23得票数 0

回答已采纳

1回答

Cron作业不运行，但在shell上手动运行时命令是可以的。

、、

我的crontab中有以下条目： 0,30 7-18 * * 1-5 cd /path/to/scrapers && scrapy crawl funny_quotes &>> $(date "+/home当我在命令中输入命令时，命令cd /path/to/scrapers && scrapy crawl funny_quotes完美地运行，从scrapy到控制台输出了大量的信息。为什么cr

浏览 5提问于2017-10-27得票数 1

回答已采纳

3回答

Scrapy Pipeline未启动

、

我的Scrapy管道出了点问题。EnricherPipeline永远不会启动。我在process_item的第一行放了一个调试器，但它永远不会得到控制。

浏览 0提问于2016-09-22得票数 1

1回答

从脚本运行爬行器时获得scrapy爬行命令的功能

、、、、

我在一个scrapy项目中编写了一个爬行器，它正确地从url和管道中抓取数据--响应到postgresql表中，但只在使用scrapy命令时。我认为问题在于，爬行命令有一个特定的协议，用于查找和调用蜘蛛包上面目录中的特定模块(例如模型、管道和设置模块)，当从脚本运行蜘蛛时，这些模块不会被调用。我遵循了中包含的说明，但在数据被刮掉后，它们似乎不处理流水线数据。这就引发了一个问题:我甚至应该尝试运行一个脚本来运行蜘蛛，或者我是否应该以某种方式使用scrapy命令。如能提供任何</em

浏览 3提问于2015-07-26得票数 2

回答已采纳

1回答

抓取蜘蛛不会释放项目内存

、、、

我正在使用scrapy从不同的来源提取一些数据，它工作得非常好，但现在我已经编写了一个爬虫来从一个大的XML文件(大约100MB => 40000项)中提取数据。 >>> prefs() Libxml2Document1 oldest: 163s a

浏览 0提问于2012-04-05得票数 0

1回答

为什么scrapy不返回任何“标题”项目？

、

我正在尝试爬行，因为scrapy为"Title“项返回None，这是作业名。css选择器在shell中工作得很好，其他项也可以工作。我试图更改选择器或添加延迟，但似乎没有任何效果。有谁有主意吗？import scrapy

浏览 3提问于2021-03-28得票数 0

回答已采纳

1回答

简陋的自定义ImagePipeline Settings.py

、

我已经为我的scrapy项目编写了自己的ImagePipeline。从我的谷歌搜索中，我得到了关于如何在settings.py中设置管线的不同信息。假设管道是MyImagesPipeline，它存在于包含以下内容的pipelines.py中： def get_media_requests1, } 我有两个管道，因为如果我单独放入My

浏览 0提问于2015-05-16得票数 5

3回答

下载带有请求和刮伤的PDF文件

、、、

因此，我一直试图使用管道中的请求库来尝试下载PDF。但是，PDF下载时总是0字节。pipelines here# Don't forget to add your pipeline to the ITEM_PIPELINES setting2015-12-03 17:42:43 [scrapy

浏览 6提问于2015-12-03得票数 0

回答已采纳

1回答

在实际抓取数据之前，scrapy是否有可能导航链接？

、

2)告诉抓取页面中的哪些部分我想知道的是，当数据本身不在起始页面时，我是否能够使用scrapy刮取数据？例如，我有一个链接，去一个论坛。

浏览 0提问于2018-10-18得票数 0

回答已采纳

1回答

Scrapy中的DOM结构与浏览器中的不同

、

我正在努力学习如何使用Scrapy抓取网页内容，并遇到了一个我无法理解的问题。我不明白为什么会发生这种情况；我可以使用任何浏览器的dev工具来选择DOM元素，但是当我试图从Scrapy中选择相同的元素时，会返回一个空列表。，但是当从Scrapy调用它时，它什么也不返回：

浏览 5提问于2020-05-05得票数 0

2回答

当你可以直接插入的时候，为什么要费心去看那些东西呢？

、

这将允许我绕过实例化任何项目子类，这样就不会有任何项目通过我的管道。防止内存泄漏。我为什么要使用Scrapy的项目类？

浏览 1提问于2012-11-20得票数 1

1回答

ImportError:没有名为scrapyproject.settings的模块

、、

我有一个scrapy项目，想法是执行爬虫，并获得结果回来。我使用Flask作为api端应用程序，也使用虚拟环境。from scrapy.spiderloader import SpiderLoader loader = SpiderLoader(settings) // validate spider cmd = "<

浏览 5提问于2016-09-10得票数 1

2回答

使用Scrapy写入多个文件

、、

我正在用Scrapy抓取一个网站，我想把结果分成两部分。通常我这样叫Scrapy：$ scrapy crawl authors -o authors.json 这两个蜘蛛是完全独立的理想情况下，我不希望将作者的URL写到一个文件中，然后与另一个爬行器一起读回它。

浏览 3提问于2013-02-04得票数 6

回答已采纳

1回答

scrapy获得公告牌前200名专辑名称

、

不知道为什么这个刮痕没有给我带来任何结果。谁能为我指一指正确的方向？我只是想从这个page中抓取专辑的标题。import scrapy name =

浏览 8提问于2020-05-02得票数 0

回答已采纳

1回答

Android仪器测试.包结构的最佳实践

、

对于我的生产源代码，我的结构类似于下面的图像：我想知道的是，androidTest (插装测试包)是否应该遵循相同的层次结构？会有什么好处呢？如果我在仪器测试中不遵循相同的层次，那么它会导致任何可伸缩性问题或一般问题吗？现在，我已经创建了与生产源代码完全不同的插装测试文件夹，但是我看到了开发人员保持包对齐的博客，为什么呢？

浏览 2提问于2017-12-14得票数 1

回答已采纳

2回答

如何使用Python刮取单个页面的多个部分？

、、

我要求能够很好地处理框架的其他部分--比如项目和管道--以及性能、限制和缓存智慧。多重请求 url = 'https://en.wikipedia.or

浏览 0提问于2017-05-07得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何实现刮除管道中的计数器？

迫使蜘蛛在刮痕处停下来

为什么scrapy不返回任何链接？

开始urls和域的Scrapy迭代

Cron作业不运行，但在shell上手动运行时命令是可以的。

Scrapy Pipeline未启动

从脚本运行爬行器时获得scrapy爬行命令的功能

抓取蜘蛛不会释放项目内存

为什么scrapy不返回任何“标题”项目？

简陋的自定义ImagePipeline Settings.py

下载带有请求和刮伤的PDF文件

在实际抓取数据之前，scrapy是否有可能导航链接？

Scrapy中的DOM结构与浏览器中的不同

当你可以直接插入的时候，为什么要费心去看那些东西呢？

ImportError:没有名为scrapyproject.settings的模块

使用Scrapy写入多个文件

scrapy获得公告牌前200名专辑名称

Android仪器测试.包结构的最佳实践

如何使用Python刮取单个页面的多个部分？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐