我正在尝试使用云构造来创建和调用AWS Glue爬虫。爬虫的创建部分(作为目标的发电机数据库)在lambda函数中。 我如何使用云形成来实现所有这些?例如,从s3中存在的cod创建λ函数,在创建lambda函数后,应该触发它来创建爬虫程序,然后应该调用爬虫程序来创建目标表。我希望所有这些都是云的形成。 参考链接:Is it possible to trigger a lambda on creation from CloudFormation template
我试图在AWS中创建一个爬虫,但是它给出了错误:{"service":"AWSGlue","statusCode":400,"errorCode":"AccessDeniedException","requestId":"<requestId>","errorMessage":"Account <accountId> is denied access.","type":"AwsServiceError
这里有一个excel文件testFile.xlsx,如下所示:
ID ENTITY STATE
1 Montgomery County Muni Utility Dist No.39 TX
2 State of Washington WA
3 Waterloo CUSD 5 IL
4 Staunton CUSD 6 IL
5 Berea City SD OH
6 City of Coshocton OH
现在我想将数据导入到AWS GLUE数据库中,AWS GLUE中的爬虫已经创建,运行爬虫后AWS GLUE数据库中的表中没有任何内容。我猜应该是AWS
我正在通过aws glue爬行数据到数据目录。但是我对数据库的定义有点困惑。根据我在亚马逊网络服务文档A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.中找到的信息。我想知道数据库到底包含了什么。它是否加载来自其他数据源的所有数据并在这些数据源上创建目录?或者它只包含目录?如何知道glue数据库中表的大小?以及它使用的数据库类型,如nosql、rds
例如,我创建了
我正在努力创建一个Java的网络爬虫。爬虫访问网站,使用JDBC访问/存储数据库中的数据,还将文件存储在本地或云存储上。
作为爬行的一部分,我想记录爬虫使用的确切细节--
参数,如--
Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via
我想用JS写我自己的网络爬虫。我正在考虑使用node.js解决方案,如
目标是每10分钟进行一次“爬行”,所以我希望我的爬虫每10分钟从网站上获取数据。
我知道我可以编写一个无限循环,例如:
var keeRunning = true;
while (keepRunning) {
// fetch data and process it every 10 minutes
}
如果我一直都有我的电脑,而且我在网站上,这会非常好的工作。
然而,如果我关闭我的电脑,我可以想象它将不再工作了。那么,我应该考虑什么样的解决方案来让脚本一直运行,即使计算机被关闭了呢?