我正在尝试使用云构造来创建和调用AWS Glue爬虫。爬虫的创建部分(作为目标的发电机数据库)在lambda函数中。 我如何使用云形成来实现所有这些?例如,从s3中存在的cod创建λ函数,在创建lambda函数后,应该触发它来创建爬虫程序,然后应该调用爬虫程序来创建目标表。我希望所有这些都是云的形成。 参考链接:Is it possible to trigger a lambda on creation from CloudFormation template
我正在努力创建一个Java的网络爬虫。爬虫访问网站,使用JDBC访问/存储数据库中的数据,还将文件存储在本地或云存储上。
作为爬行的一部分,我想记录爬虫使用的确切细节--
参数,如--
Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via