我正在尝试使用云构造来创建和调用AWS Glue爬虫。爬虫的创建部分(作为目标的发电机数据库)在lambda函数中。 我如何使用云形成来实现所有这些?例如,从s3中存在的cod创建λ函数,在创建lambda函数后,应该触发它来创建爬虫程序,然后应该调用爬虫程序来创建目标表。我希望所有这些都是云的形成。 参考链接:Is it possible to trigger a lambda on creation from CloudFormation template
我想知道从另一个python脚本运行爬虫的最好方法是什么。我的scrapy项目由4个不同的爬虫组成,它们都创建了帮助其他蜘蛛工作的文件,其中一些必须读取一些文件才能工作。这部分已经完成了,但是是单独的(独立于控制台运行爬行器)。 例如,我如何才能做这样的事情? if (productToSearchIsBlue):
#Make one spider crawl
else:
#Make another spider crawl 我的最终计划是将完整的程序上传到云上,并让它自动运行,这能做到吗? 我找到了这个问题的一些答案,但它们太老了,可能是另一个版本的scrapy。
我目前在家里的一台备用电脑上安装了一台Linux、Apache、MySQL、PHP、Postfix web服务器,我正在尝试将其转移到Amazon Web Services上。它就像个人web服务器一样简单,我主要用它来做PHP开发的个人实验,我有一个博客,它托管我的电子邮件,另外我在服务器上做一些C++开发,并运行一些小的可执行和联网的个人应用程序。
服务器真正看到的唯一流量是我(每天),加上一些网络爬虫,以及偶尔从谷歌搜索中点击的流量。
将我的服务器转移到Amazon Web Services是否合理?还是亚马逊Web服务专门针对更大规模的服务器?我期望为这个托管支付的最便宜的费用是多少?
我正在努力创建一个Java的网络爬虫。爬虫访问网站,使用JDBC访问/存储数据库中的数据,还将文件存储在本地或云存储上。
作为爬行的一部分,我想记录爬虫使用的确切细节--
参数,如--
Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via