腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6215)
视频
沙龙
1
回答
为什么
scrapy
不
给我
装
任何
管道
?
、
、
好了,我正在使用
Scrapy
进行一些基本的web抓取,它在抓取部分上工作得很好!当使用提要导出获得一些输出时,像-o output.csv这样的东西不会做
任何
事情,它只会生成一个空文件,而不会产生其他
任何
东西。在经历了一段时间的困惑之后,我不能让它工作,所以我决定使用
管道
来编写一些自定义的导出方法。但现在的问题是,即使应用程序运行良好...它只是没有加载
管道
。它们中的
任何
一个都没有运行,也没有错误。我想知道如何加载和工作我的
管道
? 更新:我忘记提到我正在尝试运行这段代码
浏览 13
提问于2020-12-29
得票数 1
1
回答
如何实现刮除
管道
中的计数器?
、
import CrawlSpider, Rulefrom
scrapy
.linkextractors import LinkExtractordefer.py", line 150, in result = f(*args, **kw) return receiver(*arg
浏览 5
提问于2015-12-24
得票数 2
回答已采纳
3
回答
迫使蜘蛛在刮痕处停下来
、
我在一个项目中有20个蜘蛛,每个蜘蛛都有不同的任务和URL来爬行(但是数据是相似的,我对它们都使用共享的items.py和pipelines.py ),顺便说一句,如果某些条件满足指定的蜘蛛停止爬行,那么我希望在
管道
类中, return itemimport
scrapy
class ZhilevanSpider(
scrapy</
浏览 0
提问于2017-10-14
得票数 3
回答已采纳
1
回答
为什么
scrapy
不
返回
任何
链接?
、
、
、
、
我有一个过滤结果的链接: name = "bostadformedlingen" start_urls = ['https
浏览 2
提问于2021-09-19
得票数 1
回答已采纳
2
回答
开始urls和域的
Scrapy
迭代
、
、
、
我正在尝试从csv读取urls和域的列表,并让
Scrapy
爬行器遍历域的列表并启动urls,目标是通过我的
管道
将该域中的所有urls导出到csv文件中。import
scrapy
from
scrapy
.linkextractors import LinkExtractorfrom NONPROF.items import NonprofItem from
scrapy
.http import Re
浏览 2
提问于2018-02-23
得票数 0
回答已采纳
1
回答
Cron作业
不
运行,但在shell上手动运行时命令是可以的。
、
、
我的crontab中有以下条目: 0,30 7-18 * * 1-5 cd /path/to/scrapers &&
scrapy
crawl funny_quotes &>> $(date "+/home当我在命令中输入命令时,命令cd /path/to/scrapers &&
scrapy
crawl funny_quotes完美地运行,从
scrapy
到控制台输出了大量的信息。
为什么
cr
浏览 5
提问于2017-10-27
得票数 1
回答已采纳
3
回答
Scrapy
Pipeline未启动
、
我的
Scrapy
管道
出了点问题。EnricherPipeline永远不会启动。我在process_item的第一行放了一个调试器,但它永远不会得到控制。
浏览 0
提问于2016-09-22
得票数 1
1
回答
从脚本运行爬行器时获得
scrapy
爬行命令的功能
、
、
、
、
我在一个
scrapy
项目中编写了一个爬行器,它正确地从url和
管道
中抓取数据--响应到postgresql表中,但只在使用
scrapy
命令时。我认为问题在于,爬行命令有一个特定的协议,用于查找和调用蜘蛛包上面目录中的特定模块(例如模型、
管道
和设置模块),当从脚本运行蜘蛛时,这些模块不会被调用。我遵循了中包含的说明,但在数据被刮掉后,它们似乎
不
处理流水线数据。这就引发了一个问题:我甚至应该尝试运行一个脚本来运行蜘蛛,或者我是否应该以某种方式使用
scrapy
命令。如能提供
任何</em
浏览 3
提问于2015-07-26
得票数 2
回答已采纳
1
回答
抓取蜘蛛不会释放项目内存
、
、
、
我正在使用
scrapy
从不同的来源提取一些数据,它工作得非常好,但现在我已经编写了一个爬虫来从一个大的XML文件(大约100MB => 40000项)中提取数据。 >>> prefs() Libxml2Document1 oldest: 163s a
浏览 0
提问于2012-04-05
得票数 0
1
回答
为什么
scrapy
不
返回
任何
“标题”项目?
、
我正在尝试爬行,因为
scrapy
为"Title“项返回None,这是作业名。css选择器在shell中工作得很好,其他项也可以工作。我试图更改选择器或添加延迟,但似乎没有
任何
效果。有谁有主意吗?import
scrapy
浏览 3
提问于2021-03-28
得票数 0
回答已采纳
1
回答
简陋的自定义ImagePipeline Settings.py
、
我已经为我的
scrapy
项目编写了自己的ImagePipeline。从我的谷歌搜索中,我得到了关于如何在settings.py中设置管线的不同信息。假设
管道
是MyImagesPipeline,它存在于包含以下内容的pipelines.py中: def get_media_requests1, } 我有两个
管道
,因为如果我单独放入My
浏览 0
提问于2015-05-16
得票数 5
3
回答
下载带有请求和刮伤的PDF文件
、
、
、
因此,我一直试图使用
管道
中的请求库来尝试下载PDF。但是,PDF下载时总是0字节。pipelines here# Don't forget to add your pipeline to the ITEM_PIPELINES setting2015-12-03 17:42:43 [
scrapy
浏览 6
提问于2015-12-03
得票数 0
回答已采纳
1
回答
在实际抓取数据之前,
scrapy
是否有可能导航链接?
、
2)告诉抓取页面中的哪些部分我想知道的是,当数据本身不在起始页面时,我是否能够使用
scrapy
刮取数据?例如,我有一个链接,去一个论坛。
浏览 0
提问于2018-10-18
得票数 0
回答已采纳
1
回答
Scrapy
中的DOM结构与浏览器中的不同
、
我正在努力学习如何使用
Scrapy
抓取网页内容,并遇到了一个我无法理解的问题。我不明白
为什么
会发生这种情况;我可以使用
任何
浏览器的dev工具来选择DOM元素,但是当我试图从
Scrapy
中选择相同的元素时,会返回一个空列表。,但是当从
Scrapy
调用它时,它什么也
不
返回:
浏览 5
提问于2020-05-05
得票数 0
2
回答
当你可以直接插入的时候,
为什么
要费心去看那些东西呢?
、
这将允许我绕过实例化
任何
项目子类,这样就不会有
任何
项目通过我的
管道
。 防止内存泄漏。我
为什么
要使用
Scrapy
的项目类?
浏览 1
提问于2012-11-20
得票数 1
1
回答
ImportError:没有名为scrapyproject.settings的模块
、
、
我有一个
scrapy
项目,想法是执行爬虫,并获得结果回来。我使用Flask作为api端应用程序,也使用虚拟环境。from
scrapy
.spiderloader import SpiderLoader loader = SpiderLoader(settings) // validate spider cmd = "<
浏览 5
提问于2016-09-10
得票数 1
2
回答
使用
Scrapy
写入多个文件
、
、
我正在用
Scrapy
抓取一个网站,我想把结果分成两部分。通常我这样叫
Scrapy
:$
scrapy
crawl authors -o authors.json 这两个蜘蛛是完全独立的理想情况下,我
不
希望将作者的URL写到一个文件中,然后与另一个爬行器一起读回它。
浏览 3
提问于2013-02-04
得票数 6
回答已采纳
1
回答
scrapy
获得公告牌前200名专辑名称
、
不知道
为什么
这个刮痕没有
给我
带来
任何
结果。谁能为我指一指正确的方向?我只是想从这个page中抓取专辑的标题。import
scrapy
name =
浏览 8
提问于2020-05-02
得票数 0
回答已采纳
1
回答
Android仪器测试.包结构的最佳实践
、
对于我的生产源代码,我的结构类似于下面的图像:我想知道的是,androidTest (插
装
测试包)是否应该遵循相同的层次结构?会有什么好处呢?如果我在仪器测试中
不
遵循相同的层次,那么它会导致
任何
可伸缩性问题或一般问题吗?现在,我已经创建了与生产源代码完全不同的插
装
测试文件夹,但是我看到了开发人员保持包对齐的博客,
为什么
呢?
浏览 2
提问于2017-12-14
得票数 1
回答已采纳
2
回答
如何使用Python刮取单个页面的多个部分?
、
、
我要求能够很好地处理框架的其他部分--比如项目和
管道
--以及性能、限制和缓存智慧。多重请求 url = 'https://en.wikipedia.or
浏览 0
提问于2017-05-07
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
为什么不直接刷唯一性车牌,要装ETC?
Python scrapy第二篇
爬虫你可能都会用,但是背后的架构你真的懂了吗?
Python爬虫很简单,真正的这些隐藏的知识你都懂吗?
爬虫可能都会用,但是背后的架构你真的懂了吗?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券