腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用多个EC2
实例
爬行
、
我用
python
编写了一个爬行过程,它运行在亚马逊上的一个ec2
实例
上。我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“
实例
报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行
实例
中想到的是,克隆
爬虫
的几个
实例
很容易,每个
实例
都要向中心报告以便处理。 因此,在这一点上,我有一个集线器和8个单独的爬行器(都在它们自己的
实例
上)不断地爬行和报告等等。我在想用小的,
浏览 2
提问于2015-01-08
得票数 0
回答已采纳
1
回答
使用
Python
向EC2
实例
发送url种子
、
、
我正在使用
python
中的EC2构建一个网络
爬虫
。我有一个主
实例
和两个从
实例
。主
实例
负责收集urls,需要对urls进行刮除,并一致地将它们发送到从服务器。我有两个问题: 如何将urls从主
实例
发送到从
实例
?谢谢
浏览 5
提问于2014-10-07
得票数 1
回答已采纳
1
回答
AWS Boto启动
实例
,部署Docker映像,运行和终止
、
、
、
我有一个网络
爬虫
,是一个码头形象。我想使用boto创建一个EC2
实例
,部署我的
爬虫
,运行这个
爬虫
,然后在它完成后终止这个
实例
。我现在的想法是: 我真的需要使用像Fabric这样的工具来对我的
实例</
浏览 0
提问于2018-03-19
得票数 2
1
回答
托管
爬虫
的最佳解决方案?
、
、
、
我有一个
爬虫
,爬行几个不同的领域为新的帖子/内容。总内容数为十万页,每天都有很多新的内容添加。因此,为了能够通过所有这些内容,我需要我的
爬虫
爬行24/7。目前,我将
爬虫
脚本托管在与
爬虫
添加内容的站点相同的服务器上,而且我只能在夜间运行cron作业来运行脚本,因为当我这样做时,网站基本上停止工作,因为脚本的加载。换句话说,一个非常糟糕的解决方案。是否有可能继续从同一主机运行
爬虫
,但在某种程度上平衡负载,以便脚本不会扼杀网站? 我会找什么样的主机/服务器来托管
爬虫</
浏览 3
提问于2014-03-06
得票数 10
回答已采纳
5
回答
当任一线程完成任务时,终止多个线程
、
我对
python
和线程都是新手。我已经编写了
python
代码,作为一个网络
爬虫
和搜索网站的特定关键字。我的问题是,如何使用线程同时运行我的类的三个不同的
实例
。当其中一个
实例
找到关键字时,所有三个
实例
都必须关闭并停止在web上爬行。下面是一些代码。
浏览 0
提问于2011-06-09
得票数 33
回答已采纳
1
回答
如何将与Luigi数据管道集成?
、
、
、
、
我目前正在构建一个
Python
后端,该后端将部署到一个AWS EC2
实例
中,该
实例
具有以下体系结构: 网络
爬虫
数据-保存到S3* =\任何建议,文件,或文章将是超级感谢!
浏览 1
提问于2017-06-13
得票数 3
回答已采纳
1
回答
如果某个字段值不是唯一的,则rabbitmq丢弃消息?
、
我在我的网络
爬虫
中使用了一个ampq队列-每个
爬虫
实例
都将从队列中的消息中获得一个url,然后将它找到的url添加到队列中。 由于将有多个
爬虫
实例
,每个
实例
都可能找到相同的url并将其添加到队列中。
浏览 4
提问于2014-04-30
得票数 2
回答已采纳
2
回答
不能去守护
Python
脚本
、
我对我的
Python
应用程序的去情结有一个问题。我怎样才能取消我的申请?感谢所有的回复,提前!
浏览 1
提问于2013-08-15
得票数 0
回答已采纳
1
回答
弹性豆杆不运行的克隆约伯
、
、
、
、
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
4
回答
Java -销毁正在执行某些操作的对象
、
我的应用程序允许用户创建一系列的网络
爬虫
,这些
爬虫
保存在一个数组列表中。每个crawler都有一个进度面板gui,显示已爬行的页面等,并允许用户暂停该
爬虫
。但是,用户可能还想“终止”该
爬虫
程序。应该注意的是,Crawler类的每个
实例
都有一个Scraper类的
实例
,而Scraper类又有一个DatabaseConnection类的
实例
。
浏览 4
提问于2011-07-08
得票数 0
回答已采纳
1
回答
无法使用bash - cron将目录更改为脚本。
、
、
、
、
我有一个运行多个
Python
爬虫
实例
的脚本,Crawler是int /root/crawler/batchscript.py
爬虫
工作得很好。但是,当我使用
python
/root/crawler/batchscript.py从这个目录外部运行它时,它不会按预期运行(设置没有正确导入),get_project_settings()是空的。
浏览 3
提问于2016-11-17
得票数 0
回答已采纳
2
回答
在Scrapy >= 0.14中编程启动
爬虫
最简单的方法是什么?
、
、
我想从
Python
模块在Scrapy中启动一个
爬虫
。my_crawler -a some_arg=value -L DEBUG的本质 使用settings.py中的设置和具有my_crawler名称属性的
爬虫
启动爬行(我可以轻松地从测试模块
实例
化这个类在
爬虫
完
浏览 1
提问于2012-06-26
得票数 9
3
回答
Scrapy -如何启动同一
爬虫
进程的多个
实例
?
、
、
、
我在启动同一
爬虫
的多个
实例
时被卡住了。我想让它像一个
爬虫
实例
的1url一样运行。我必须处理50k个urls,为此,我需要为每个urls启动单独的
实例
。在我的主要
爬虫
脚本中,我设置了7分钟的closedpider超时,以确保我不会爬行很长时间。但之后当传递第二个url时,它会显示以下错误:ReactorNotRestartable 请建议我应该做些什么才能让它为同一个
爬虫
的多个
实例
浏览 1
提问于2015-11-13
得票数 6
1
回答
如何在nodejs中运行多个
实例
而不重复作业
、
、
、
当我将项目(nestjs)扩展到多个
实例
时,我遇到了问题。在我的项目中,我有一个每10分钟运行一次的
爬虫
服务。当2个
实例
运行时,
爬虫
将在两个
实例
上运行,因此数据将重复。有人知道怎么处理吗?
浏览 9
提问于2022-09-09
得票数 1
1
回答
长时间多处理断管
、
、
我使用多处理模型开发了一个
爬虫
。这三种类型的params都是在所有子进程和父进程之间共享的,所有的params都组织在一个类中,我使用类的
实例
将共享的params从父进程转移到子进程。我尝试了以下方法来定位和解决这些问题: 定位网站A哪个
爬虫
坏了,然后使用
爬虫
分别抓取网站,
爬虫
工作良好。甚至我从所有包含站点A的目标站点文件中获得一个片段(例如20个站点),
爬虫
工作得很好!d" % len(global_params.STATIC_RESULT)) File &quo
浏览 1
提问于2014-12-09
得票数 0
7
回答
对于我的应用程序,多少个线程会是最优的?
、
我有一个简单的
Python
网络
爬虫
。它使用SQLite来存储它的输出,也用来保存一个队列。我想让
爬虫
是多线程的,这样它就可以一次抓取几个页面。我想我应该创建一个线程,一次只运行类的几个
实例
,这样它们都可以同时运行。但问题是,我应该一次运行多少次?我是不是应该坚持到两个?我能再高一点吗?线程数量的合理限制是多少?
浏览 2
提问于2009-03-08
得票数 3
回答已采纳
1
回答
将具有动态生成名称的DynamoDB表导出到S3
、
、
我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 ",其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么?我在看AWS Glue,但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好?DynamoDB表的大小不大,存储了几百个数字。
浏览 4
提问于2019-12-21
得票数 0
回答已采纳
1
回答
如何在您自己的ami中管理应用程序?
我们有一些从互联网上收集数据的
爬虫
。对于我们的应用程序来说,EC2 spot是一个非常便宜的解决方案。在我们的例子中,我们可以通过以下步骤来设置
爬虫
: 3.
浏览 2
提问于2012-07-09
得票数 0
回答已采纳
1
回答
EJB未注入
、
、
、
我的Java应用程序使用,它使用以下代码开始抓取:config.setCrawlStorageFolder("C:/crawler4j_storage");RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtC
浏览 3
提问于2012-07-01
得票数 0
回答已采纳
2
回答
使用scrapy
python
的.net框架
、
、
、
可以在
Python
框架中使用.NET框架从不同的站点抓取数据吗?我正在做我的最后一年的项目,在这个项目中,我想使用C#作为前端语言,并使用
Python
来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫实例
Python 爬虫:Beautiful Soup 实例(一)
Python微博移动端爬虫实例
Python爬虫实例之——小说下载
利用 Python 编写简单网络爬虫实例 2
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券