腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Glue
Data
crawler
处理
压缩
的
gz
文件
以
创建
表
模式
、
我在S3存储桶中有一个
压缩
的
gzip
文件
。客户端每天会将
文件
上传到S3存储桶中。解
压缩
后
的
gzip将包含10个CSV格式
的
文件
,但只有相同
的
模式
。我
的
目标是
处理
gzip
文件
,
使用
数据爬虫
创建
表
模式
,然后将所有数据加载/合并到一个新
的
单个
表
中。 <e
浏览 3
提问于2018-02-16
得票数 2
1
回答
可以粘合爬虫读取xml
压缩
文件
、
、
我有一个xml
压缩
文件
。我可以
使用
glue
crawler
创建
模式
吗?我尝试
使用
crawler
XML分类器,并将分类器添加到
crawler
中来
创建
表
。因为它
的
压缩
文件
。不识字。任何人都可以体验在
glue
crawler
中
使用
Zip
文件
吗
浏览 25
提问于2021-01-26
得票数 0
1
回答
胶爬虫无法
使用
snappy
压缩
json
文件
分类和
创建
表
。
、
、
、
、
我有一个KFH应用程序,它将
压缩
的
json
文件
作为snappy放入S3桶中。我还有一个
Glue
Crawler
,它
使用
那个桶
创建
模式
。但是,爬虫将
表
分类为未知
表
。它无法检测到
文件
确实是json。根据下面的文档,
Glue
爬虫提供了带有JSON
文件
的
快速
压缩
,但我无法实现。 谢谢。
浏览 7
提问于2022-09-29
得票数 0
2
回答
在AWS
Glue
中解
压缩
zip
文件
、
我在S3存储桶中有一个
压缩
的
gzip
文件
。客户端每天会将
文件
上传到S3存储桶中。解
压缩
后
的
gzip将包含10个CSV格式
的
文件
,但只有相同
的
模式
。我需要解
压缩
gzip
文件
,并
使用
Glue
->
Data
crawler
创建
模式
,然后
使用
dev运行ETL脚本
浏览 21
提问于2018-02-24
得票数 2
回答已采纳
3
回答
AWS
Glue
ETL作业缺少
crawler
可见
的
字段
、
、
、
我有一个由爬虫
创建
的
表
,指向存储在s3中
的
一些拼图
文件
。从
Glue
data
catalogue GUI中,我可以看到许多字段(53)。当我打开一个ETL dev端点并连接到一个sagemaker笔记本,加载相同
的
表
并运行printSchema时,我看到
使用
以下代码
的
字段(36)要少得多。GlueContext, DynamicFrame glueCon
浏览 15
提问于2018-12-12
得票数 2
2
回答
Glue
Crawler
可以抓取deltalake
文件
来
创建
aws胶水目录中
的
表
吗?
、
、
、
、
这些S3目录是作为AWS
的
一部分
创建
的
,并通过spark作业转储。为了实现增量功能,我们在deltalake上做了一个POC。因此,当我通过星火三角洲作业在S3中编写这些deltalake
文件
时,我
的
爬虫程序无法从这些爬虫器中
创建
表
。 我们能用AWS爬虫来抓取三角洲湖
的
文件
吗?
浏览 5
提问于2020-09-05
得票数 2
回答已采纳
1
回答
防止AWS
glue
crawler
创建
多个
表
我
创建
了一个
glue
爬虫,它爬行数据并在
glue
数据目录中
创建
表
。假设我有一个CSV
文件
(file1.csv),它
的
模式
类似于(id,name),一旦爬虫作业执行完毕,它就会
创建
包含2列(id,name)
的
雅典娜
表
(
crawler
_file)。现在有了一个新
文件
(file2.csv),它
的
模式
类似于(id,name,roll_n
浏览 13
提问于2018-12-19
得票数 2
回答已采纳
2
回答
如何
使用
glueContext.create_dynamic_frame_from_options读入大量Json存储桶
、
、
、
我想读入路径中
的
所有json
文件
"s3://.../year=2019/month=11/day=06/“如何
使用
glueContext.create_dynamic_frame_from_options实现?如果我
使用
glueContext.create_dynamic_frame_from_options("s3", format="json", connection_options = {"path
浏览 35
提问于2020-01-09
得票数 0
回答已采纳
1
回答
如何在雅典娜中
使用
多种
文件
格式
、
、
我在s3存储桶目录中有多个不同格式
的
文件
(csv、json和parquet) (所有
文件
都在同一个目录中)。所有
文件
都具有相同
的
结构。如何
使用
这些
文件
创建
Athena
表
?在
创建
表
时,我们是否提供了不同
的
Serde? 编辑:当我预览
表
时,
创建
了
表
,但没有数据。
浏览 2
提问于2018-10-31
得票数 1
5
回答
AWS
Glue
不会检测分区并在目录中
创建
1000+
表
、
、
我正在
使用
AWS
Glue
创建
元数据
表
。AWS
Glue
Crawler
数据存储路径: s3://bucket-name/├── bucket-name │ ├── pt=2011-10-11-10 为此aws
cra
浏览 0
提问于2018-01-09
得票数 9
8
回答
AWS雅典娜从从胶水爬虫输入csv
创建
的
表
返回零记录从S3
、
、
、
、
第一部分:但雅典娜
的
ELB演示数据运行良好。第二部分(场景:) 假设我有一个excel
文件
和数据字典,说明如何和什么格式
的
数据存储在该
文件
中,我希望将数据转储到AWS Redshift中
浏览 25
提问于2017-11-13
得票数 14
1
回答
为什么Kinesis或
Crawler
要在我
的
数据中
创建
分区?
、
、
、
、
上下文:根据胶水
模式
,我
使用
动态技术将来自lambda
的
数据流到一个S3桶中。然后,我在我
的
S3桶上运行一个爬虫来编目我
的
数据。我
的
数据,当写入运动消防软管时,有以下属性:'dataset_datetime,attr1,attr2,attr3,attr2 4.‘。我没有在从lambda编写
的
数据中,在我
的
运动消防软管中,也没有在我
的
胶水目录中定义任何分区。但是,当数据存储在我
的
S3桶中时,数据存储在以下di
浏览 10
提问于2022-07-26
得票数 0
回答已采纳
1
回答
如何以编程方式读取AWS
Glue
Data
Catalog
表
架构
、
我有一套结构统一
的
每日CSV
文件
,我会将它们上传到S3。有一个下游任务将CSV数据加载到Redshift数据库
表
中。CSV中
的
列数可能会增加,从那时起,新
文件
中将包含新列。当发生这种情况时,我希望检测更改并自动将该列添加到目标Redshift
表
中。 我
的
计划是在源CSV
文件
上运行
Glue
Crawler
。
模式
中
的
任何更改都将在
Glue
Data
浏览 10
提问于2018-01-15
得票数 4
回答已采纳
2
回答
如何
使用
AWS javascript SDK运行胶水爬虫?
、
、
、
、
我正在尝试
创建
一个Lambda,一旦将
文件
添加到特定
的
s3存储桶中就会触发它。 不幸
的
是,我找不到任何关于如何
使用
aws javascript sdk运行
Glue
Crawler
的
资源/文档。
浏览 0
提问于2019-06-17
得票数 2
1
回答
我不希望
Glue
将同一
表
中
的
文件
合并
、
、
我有一个S3桶,其中包含4个
文件
夹,每个
文件
夹包含1个
文件
(其中一些是csv和一些拼图),其中95%
的
文件
列名是相同
的
。我
创建
了一个
Glue
爬虫,它指向这个S3桶,我希望它
创建
4个单独
的
表
,但它没有,它仍然
创建
一个
表
,并将所有内容与一个名为“分区”
的
列合并,该列指示记录
的
来源(它来自csv/parquet
文件<
浏览 12
提问于2022-12-01
得票数 0
4
回答
AWS
GLUE
数据导入问题
、
这里有一个excel
文件
testFile.xlsx,如下所示:1 Montgomery County Muni Utility Dist No.39 TXWaterloo CUSD 5 IL5 Berea City SD OH现在我想将数据导入到AWS
GLUE
数据库中,AWS
GLUE
中
的
爬虫已经
创建
,运行爬虫后AWS
GLUE
数
浏览 1
提问于2017-11-29
得票数 2
1
回答
AWS
Glue
Crawler
将所有数据发送到
Glue
Catalog和Athena,而无需
Glue
Job
、
、
我对AWS胶水有新
的
了解。我正在
使用
AWS
Glue
Crawler
从两个S3存储桶中抓取数据。我在每个存储桶中都有一个
文件
。AWS
Glue
Crawler
在AWS
Glue
Data
Catalog中
创建
了两个
表
,我还可以在AWS Athena中查询数据。我
的
理解是为了在雅典娜中获取数据,我需要
创建
胶水作业,这将在雅典娜中提取数据,但我错了。
Glue<
浏览 62
提问于2021-10-08
得票数 1
回答已采纳
1
回答
爬虫正在
创建
一个名称后缀奇怪
的
表
。
、
、
我们还调用了一个爬虫来
创建
/更新雅典娜中
的
表
。但是,它正在
创建
表
,但在
表
名中添加了一些奇怪
的
后缀。
glue
_client = boto3.client("
glue
", region_name=
浏览 3
提问于2020-08-04
得票数 0
回答已采纳
2
回答
我应该每次运行
Glue
爬虫来获取最新
的
数据吗?
、
、
、
、
我有一个名为Employee
的
S3桶。每隔三个小时,我就会在桶里得到一个带有时间戳
的
文件
。我将
使用
Glue
作业将
文件
从S3移动到Redshift,并进行一些转换。我在S3桶中
的
输入
文件
将有一个固定
的
结构。我
的
Glue
作业将
使用
通过爬行器在数据目录中
创建
的
表
作为输入。database = "test", tab
浏览 2
提问于2020-06-23
得票数 3
回答已采纳
1
回答
AWS
Glue
不删除或弃用在已删除
的
S3数据上生成
的
表
、
、
、
由于用户错误,运行
Glue
爬虫程序
的
S3目录经常被.csv
文件
淹没。当
Glue
遍历S3目录时,它为每个200,000+ csv
文件
创建
了一个
表
。我运行了一个脚本,不久之后删除了.csv
文件
(S3存储桶启用了版本控制),并
使用
以下设置重新运行了
Glue
crawler
: Schema updates in the
data
store Update在cloudwatch日志中-
浏览 19
提问于2020-01-18
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
每日一模块:gzip
使用 Scrapy 构建一个网络爬虫
TCGA数据库mRNA&lncRNA数据提取
用 Joblib 加速机器学习:高效存储与加载大数据!
Linux 史上最全命令大全
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券