Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >S3上连续到达数据的AWS增量爬行

问S3上连续到达数据的AWS增量爬行
EN

Stack Overflow用户

提问于 2021-06-07 01:48:51

回答 1查看 1.7K关注 0票数 0

我正在寻找一种为S3数据设置增量Glue爬虫的方法，其中数据连续到达并按捕获日期进行分区(因此包含路径中的S3路径包含日期=yyyy)。我担心的是，如果我在一天内运行这个爬虫，它的分区将被创建，并且不会在后续的爬行中被重新访问。是否有一种方法可以强制某个给定的分区(我知道该分区可能仍在接收更新)，在逐步运行爬虫时进行爬行，而不将资源浪费在历史数据上？

aws-glue-data-catalog

amazon-web-services

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-06-07 06:00:11

爬虫将只访问带有增量爬行的新文件夹(假设您已经设置了爬行新文件夹选项)。向现有文件夹添加更多数据的唯一情况是，如果通过将不同格式的文件添加到已经爬行的文件夹中来更改架构，则会出现问题。否则，爬虫已经创建了分区并知道了架构，并且准备好了提取数据，即使将新文件添加到现有文件夹中。

票数 3

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67869433

复制

相关文章

php输出字节流(本节以音频播放为例)

本教程是在ThinkPHP5.0中进行的，如用在其它程序中，作少量修改即可。 /** * 以文件流输出音频文件 * @author Sindsun * @date 2018年10月27日22:32:17 * @param $filePath 文件地址 * @param $param 其它参数 * @param $fun 执行一个闭包函数第一个参数为外部参数 * @output filestream * @return

Sindsun

2019/12/06

1.7K0

[简约webAPI]分别以asp|jsp|php简单粗暴实现webAPI,输出json数据

php api asp jsp 云数据库 SQL Server

[简约webAPI]分别以asp|jsp|php简单粗暴实现webAPI,输出json数据

landv

2020/02/11

2.1K0

fastjson输出空值

数据结构编程算法

在fastjson中，缺省是不输出空值的。无论Map中的null和对象属性中的null，序列化的时候都会被忽略不输出，这样会减少产生文本的大小。但如果需要输出空值怎么做呢？

johnhuster的分享

2022/03/28

1.5K0

PHP 输出控制

php http 存储 go

默认情况下，输出一个字符串到浏览器,经过3个阶段PHP buffer->Tcp buffer->浏览器(IE浏览器有的版本也存在buffer)

用户3094376

2018/09/12

2.6K0

udp tcp/ip http

OSI是一种设计得非常详细的协议，而问题就是出在详细上；因为实际的情况往往比想象中的更加多变和灵活，所以OSI的详细本该成为它的优势，但却成为了其限制。

Noneplus

2020/08/13

3170

PHP输出语句

prinf_r()是PHP的内置函数可以输出任意的数据（变量，数组，字符串），也是只能输出一个数据

十月梦想

2018/08/29

6.5K0

以目标为导向做输出

服务技巧架构量化系统

前面几篇文章介绍了如何以一个问题开始，思考全局理想态，以及如何结构化成体系，如何基于目标拆解路径。

春哥大魔王

2023/03/22

2490

vim命令速记

复制时不要行号如果用鼠标复制,会连行号一块选上. 在一般模式下按v进入visiual模式,选择要复制的行,然后输入 +y 就可以了.

yifei_

2022/11/14

5510

scripts中以.py结尾，输出一个张量的元素值的代码分享

MAIN_MENU_BUTTON_BACKGROUND = pygame.image.load("assets/main_menu_button_bg.png")

好派笔记

2022/06/07

8290

vue知识速记

html 编程算法 vue.js 渲染打包

MVVM 是 Model-View-ViewModel 的缩写。 Model代表数据模型，也可以在Model中定义数据修改和操作的业务逻辑。 View 代表UI 组件，它负责将数据模型转化成UI 展现出来。 ViewModel 监听模型数据的改变和控制视图行为、处理用户交互，简单理解就是一个同步View 和 Model的对象，连接Model和View。

用户3055976

2020/09/02

6010

git命令速记

git是一个很神奇的工具，是由Linux的发起者linus用c语言编写的… 最常用的其实只有十几个命令，其他的可以等到真正的团队合作的时候去复习一下。在这里记录一下常用命令，想要学习git推荐廖雪峰的Git教程

yifei_

2022/11/14

4350

python 以16进制打印输出

打印整数１６进制 num=10 print('%#x'%num) 打印字符串中的１６进制 arr='12342535' for i in arr: print('%#x'%ord(i))

py3study

2020/01/09

3.2K0

PHP学习-PHP输出图片下载

输出下载 <?php $t=imagecreatetruecolor(100,100); $red=imagecolorallocate($t,255,0,0); imagef

AlexTao

2019/12/12

3.2K0

php输出命令_php怎么调用函数

linux shell php https 网络安全

以上方法是命令执行完才可执行后面程序，如果你的逻辑复杂，会影响用户体验，这时可以提供一个，异步执行的方法，通知服务器执行，不占用主程序进程的方法

全栈程序员站长

2022/11/11

14.9K0

PHP中遍历二维数组_以不同形式的输出操作实例

php javascript 编程算法

【当下浏览的服务器和开发工具是哪些】/ 如下所示： <body> <?php //定义二维索引数组 $arr = array( array("101","李军","男","1976-02-20","9

用户2323866

2021/07/01

9940

python输出多个变量的值。

有点类似于C语言 print("%s,%d,%d"%(name ,age ,school))

py3study

2020/01/10

5K0

php fastcgi,配置apache以fastcgi运行php[通俗易懂]

单片机 php apache makefile http

apache默认是用自带的mod_php模块运行php，现在我们介绍使用fastcgi来执行php脚本。先说下fastcgi的优点：

全栈程序员站长

2022/09/14

2.4K0

php fastcgi,配置apache以fastcgi运行php[通俗易懂]

PHP对象传值 - 引用传值

运行结果，其实第一次打印就可以看出来a 和 b 是一个对象，因为对象标识符一样（都是 1）

很酷的站长

2023/02/17

6K0

点击加载更多

相似问题

PHP速记布尔值

110

php速记if

31

PHP速记概述

94

如何配置SASS以输出速记十六进制颜色

10

PHP速记语法

21

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例