我正在寻找一种为S3数据设置增量Glue爬虫的方法,其中数据连续到达并按捕获日期进行分区(因此包含路径中的S3路径包含日期=yyyy)。我担心的是,如果我在一天内运行这个爬虫,它的分区将被创建,并且不会在后续的爬行中被重新访问。是否有一种方法可以强制某个给定的分区(我知道该分区可能仍在接收更新),在逐步运行爬虫时进行爬行,而不将资源浪费在历史数据上?
发布于 2021-06-07 06:00:11
爬虫将只访问带有增量爬行的新文件夹(假设您已经设置了爬行新文件夹选项)。向现有文件夹添加更多数据的唯一情况是,如果通过将不同格式的文件添加到已经爬行的文件夹中来更改架构,则会出现问题。否则,爬虫已经创建了分区并知道了架构,并且准备好了提取数据,即使将新文件添加到现有文件夹中。
https://stackoverflow.com/questions/67869433
复制相似问题