腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6634)
视频
沙龙
1
回答
我是否正确地使用
scrapy
-redis来抓取大量URL?
我对
分布式
scrapy
爬虫
是个新手,但是我发现了
scrapy
-redis并且一直在使用它。我在一个覆盆子pi上使用它来抓取大量我推送到redis的URL。我所做的就是在Pi中创建多个SSH会话,然后运行
scrapy
crawl myspider让爬行器“等待”。然后我启动另一个SSH并执行redis-cli lpush "my links“。然后
爬虫
运行,尽管我不确定它们实际运行的并发程度。 我希望这是清楚的,如果没有,请让我知道,我可以澄清。我真的只是在寻找在实现这个基本版本
浏览 0
提问于2020-07-31
得票数 0
1
回答
如何顺利地重启
scrapy
-redis蜘蛛?
、
、
我用
scrapy
-redis写了一个简单的
爬虫
来制作
分布式
蜘蛛。当我启动两只蜘蛛,然后把它们都杀死时,我发现了这点。redis队列只留下了‘dupfilter’队列。当我重新启动这两个
爬虫
时,它们根本不起作用。那么,如果蜘蛛意外死亡或崩溃,如何重新启动它们呢?
浏览 0
提问于2016-05-30
得票数 0
1
回答
抓取路径中的蜘蛛
、
一些关于运行
scrapy
的建议建议这样做,以便通过脚本启动
scrapy
,或者在IDE中进行调试,等等:import os 通过这个,我
浏览 1
提问于2016-09-29
得票数 2
3
回答
Scrapy
-如何启动同一
爬虫
进程的多个
实例
?
、
、
、
我在启动同一
爬虫
的多个
实例
时被卡住了。我想让它像一个
爬虫
实例
的1url一样运行。我必须处理50k个urls,为此,我需要为每个urls启动单独的
实例
。在我的主要
爬虫
脚本中,我设置了7分钟的closedpider超时,以确保我不会爬行很长时间。请参考下面的代码:from
scrapy
.utils.project import get_project_settings但之
浏览 1
提问于2015-11-13
得票数 6
1
回答
如何将数据传递给scrapinghub?
、
、
我正试图在scrapinghub上运行一个
scrapy
spider,我想传递一些数据。我正在使用他们的API来运行
爬虫
: 他们有一个job_settings选项,这似乎是相关的,但是我不知道如何访问我的Spider类中的job_settings数据。这里的正确方法是什么?
浏览 9
提问于2016-09-01
得票数 2
回答已采纳
1
回答
爬行器对象与爬行器和管道对象之间有什么关系?
、
table_name = table[0:3] # FIRST 3 LETTERS我一直在阅读,其中包含: 但是仍然不了解from_crawler方法和
爬虫
对象。如何以及何时
实例
化
爬虫
?蜘蛛是
爬虫
的子类吗?我问过,但我不明白这些部分是如何组合在一起的。
浏览 2
提问于2017-12-25
得票数 2
回答已采纳
2
回答
抓取并发或
分布式
爬网
、
、
我想用
scrapy
抓取相当大的网站。在某些情况下,我已经有了抓取的链接,而在其他情况下,我需要提取(抓取)它们。我还需要在运行时访问数据库两次。理想情况下,我可以运行并发或
分布式
爬行,以加快速度。使用
scrapy
运行并发或
分布式
爬网的推荐方式是什么?
浏览 5
提问于2015-05-28
得票数 4
1
回答
如何让
scrapy
使用两个队列来管理urls?
、
、
、
我想用
scrapy
框架和
scrapy
-redis库做一个有针对性的
分布式
爬虫
。我应该修改哪些
scrapy
模块来满足我的需求?
浏览 14
提问于2018-08-23
得票数 0
1
回答
如何从redis获得一个正常的url,而不是通过url cPikle转换?
、
、
、
、
我使用
scrapy
简单地构建了一个
分布式
爬虫
,从机器需要读取url形式的主队列url,但是有一个问题是,我到达url从机器是在cPikle转换后的数据,我想从redis- url队列中获得url是正确的示例:from
scrapy
.spider import Spider re
浏览 5
提问于2016-03-21
得票数 1
回答已采纳
2
回答
如何使用Scrapyd和ScrapydWeb在集群中分布
爬虫
?
、
、
、
我在一个使用
Scrapy
的
爬虫
项目中工作,我需要将我的
爬虫
分布在集群中的不同节点上,以使过程更快。问题是爬行是并行运行的(内容是由两台机器获取的),我的目的是以一种
分布式
的方式进行爬行,以最小化爬行时间。 有人能帮我吗?提前谢谢你。
浏览 6
提问于2020-05-07
得票数 2
2
回答
在
Scrapy
>= 0.14中编程启动
爬虫
最简单的方法是什么?
、
、
我想从Python模块在
Scrapy
中启动一个
爬虫
。扩展BaseSpider并在初始化时需要参数的
爬虫
类。我可以很高兴地使用上面指定的
scrapy
命令运行我的项目,但是我正在编写集成测试,我想通过编程: 有人能帮我吗?
浏览 1
提问于2012-06-26
得票数 9
2
回答
为什么spider.py中的
scrapy
需要一个
爬虫
对象?
、
我在一些类末尾的
爬虫
文件中看到了这一点 pass 我们为什么要使用SPIDER = TestSpider我没有使用它,而且我的
爬虫
工作得很好。
浏览 1
提问于2012-12-19
得票数 4
回答已采纳
1
回答
Scrapy
4xx/5xx错误处理
、
我们正在构建一个
分布式
系统,它使用Amazon的SQS将消息分派给根据消息内容运行
爬虫
的工作者。 我们(显然)只希望在相应的爬行器成功运行的情况下从队列中删除消息,即不会遇到4xx/5xx响应。我想要做的是挂钩到
scrapy
的signals API来触发一个回调,当
爬虫
成功关闭时,该回调将从队列中删除消息,但我不确定这是否真的是signals.spider_closed的语义(而不是“这个蜘蛛由于任何原因而关闭
浏览 1
提问于2015-08-28
得票数 0
1
回答
抓取让一只蜘蛛使用另一种蜘蛛所建的属性。
、
、
、
目前,我正在创建这个主蜘蛛的
实例
,如下所示: process = CrawlerProcess(get_project_settings
浏览 3
提问于2017-08-02
得票数 2
1
回答
linux上的shell脚本
、
、
nohup
scrapy
crawl f & wait $!nohup
scrapy
crawl h & wait $!nohup
scrapy
crawl i & nohup
scrapy
crawl k & wait $
浏览 2
提问于2012-11-03
得票数 2
回答已采纳
1
回答
在类外设置
scrapy
的起始urls
、
我是新的
Scrapy
,我怎么能传递start_urls从外部的类,我试图使start_urls外部的类,但它没有work.What我正在尝试做的是创建一个文件与文件名从字典(search_dict)和它的值作为
Scrapy
的开始网址 search_dict={'hello world':'https://www.google.com/search?q="test"'} n
浏览 13
提问于2019-06-04
得票数 1
回答已采纳
2
回答
使用Google Cloud Functions时的ReactorNotRestartable与
scrapy
、
、
、
例如,我尝试将导入和初始化过程放在函数内部,而不是外部,以防止导入缓存,但这不起作用: # main.py from
scrapy
.crawler
浏览 24
提问于2020-04-07
得票数 3
回答已采纳
1
回答
弹性豆杆不运行的克隆约伯
、
、
、
、
source /opt/python/run/venv/bin/activate PATH=$PATH:/usr/local/
浏览 0
提问于2015-04-13
得票数 0
2
回答
使用
scrapy
python的.net框架
、
、
、
可以在Python 框架中使用.NET框架从不同的站点抓取数据吗?我正在做我的最后一年的项目,在这个项目中,我想使用C#作为前端语言,并使用Python来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
1
回答
抓取完成后重新启动crawler
当我的
Scrapy
爬虫
完成后,我想自动再次启动相同的
爬虫
。这可以通过
Scrapy
函数来完成吗?或者我是否必须使用Cronjob,例如crontab?
浏览 3
提问于2013-10-23
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Scrapy-Redis分布式爬虫源码解析
Python Scrapy 爬虫(二):scrapy 初试
scrapy爬虫框架
装个虚拟机,然后拿来玩爬虫!也是极好的!Scrapy分布式爬虫!
Scrapy爬虫教程五 爬虫部署
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券