使用Glue Data crawler处理压缩的gz文件以创建表模式

、

我在S3存储桶中有一个压缩的gzip文件。客户端每天会将文件上传到S3存储桶中。解压缩后的gzip将包含10个CSV格式的文件，但只有相同的模式。我的目标是处理gzip文件，使用数据爬虫创建表模式，然后将所有数据加载/合并到一个新的单个表中。 <e

浏览 3提问于2018-02-16得票数 2

1回答

可以粘合爬虫读取xml压缩文件

、、

我有一个xml压缩文件。我可以使用glue crawler创建模式吗？我尝试使用crawler XML分类器，并将分类器添加到crawler中来创建表。因为它的压缩文件。不识字。任何人都可以体验在glue crawler中使用Zip文件吗

浏览 25提问于2021-01-26得票数 0

1回答

胶爬虫无法使用snappy压缩json文件分类和创建表。

、、、、

我有一个KFH应用程序，它将压缩的json文件作为snappy放入S3桶中。我还有一个Glue Crawler，它使用那个桶创建模式。但是，爬虫将表分类为未知表。它无法检测到文件确实是json。根据下面的文档，Glue爬虫提供了带有JSON文件的快速压缩，但我无法实现。谢谢。

浏览 7提问于2022-09-29得票数 0

2回答

在AWS Glue中解压缩zip文件

、

我在S3存储桶中有一个压缩的gzip文件。客户端每天会将文件上传到S3存储桶中。解压缩后的gzip将包含10个CSV格式的文件，但只有相同的模式。我需要解压缩gzip文件，并使用Glue->Data crawler创建模式，然后使用dev运行ETL脚本

浏览 21提问于2018-02-24得票数 2

回答已采纳

3回答

AWS Glue ETL作业缺少crawler可见的字段

、、、

我有一个由爬虫创建的表，指向存储在s3中的一些拼图文件。从Glue data catalogue GUI中，我可以看到许多字段(53)。当我打开一个ETL dev端点并连接到一个sagemaker笔记本，加载相同的表并运行printSchema时，我看到使用以下代码的字段(36)要少得多。GlueContext, DynamicFrame glueCon

浏览 15提问于2018-12-12得票数 2

2回答

Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗？

、、、、

这些S3目录是作为AWS的一部分创建的，并通过spark作业转储。为了实现增量功能，我们在deltalake上做了一个POC。因此，当我通过星火三角洲作业在S3中编写这些deltalake文件时，我的爬虫程序无法从这些爬虫器中创建表。我们能用AWS爬虫来抓取三角洲湖的文件吗？

浏览 5提问于2020-09-05得票数 2

回答已采纳

1回答

防止AWS glue crawler创建多个表

我创建了一个glue爬虫，它爬行数据并在glue数据目录中创建表。假设我有一个CSV文件(file1.csv)，它的模式类似于(id，name)，一旦爬虫作业执行完毕，它就会创建包含2列(id，name)的雅典娜表(crawler_file)。现在有了一个新文件(file2.csv)，它的模式类似于(id，name，roll_n

浏览 13提问于2018-12-19得票数 2

回答已采纳

2回答

如何使用glueContext.create_dynamic_frame_from_options读入大量Json存储桶

、、、

我想读入路径中的所有json文件"s3://.../year=2019/month=11/day=06/“如何使用glueContext.create_dynamic_frame_from_options实现？如果我使用glueContext.create_dynamic_frame_from_options("s3", format="json", connection_options = {"path

浏览 35提问于2020-01-09得票数 0

回答已采纳

1回答

如何在雅典娜中使用多种文件格式

、、

我在s3存储桶目录中有多个不同格式的文件(csv、json和parquet) (所有文件都在同一个目录中)。所有文件都具有相同的结构。如何使用这些文件创建Athena表？在创建表时，我们是否提供了不同的Serde？编辑:当我预览表时，创建了表，但没有数据。

浏览 2提问于2018-10-31得票数 1

5回答

AWS Glue不会检测分区并在目录中创建1000+表

、、

我正在使用AWS Glue创建元数据表。AWS Glue Crawler数据存储路径: s3://bucket-name/├── bucket-name │ ├── pt=2011-10-11-10 为此aws cra

浏览 0提问于2018-01-09得票数 9

8回答

AWS雅典娜从从胶水爬虫输入csv创建的表返回零记录从S3

、、、、

第一部分:但雅典娜的ELB演示数据运行良好。第二部分(场景：) 假设我有一个excel文件和数据字典，说明如何和什么格式的数据存储在该文件中，我希望将数据转储到AWS Redshift中

浏览 25提问于2017-11-13得票数 14

1回答

为什么Kinesis或Crawler要在我的数据中创建分区？

、、、、

上下文:根据胶水模式，我使用动态技术将来自lambda的数据流到一个S3桶中。然后，我在我的S3桶上运行一个爬虫来编目我的数据。我的数据，当写入运动消防软管时，有以下属性：'dataset_datetime，attr1，attr2，attr3，attr2 4.‘。我没有在从lambda编写的数据中，在我的运动消防软管中，也没有在我的胶水目录中定义任何分区。但是，当数据存储在我的S3桶中时，数据存储在以下di

浏览 10提问于2022-07-26得票数 0

回答已采纳

1回答

如何以编程方式读取AWS Glue* Data Catalog表架构*

、

我有一套结构统一的每日CSV文件，我会将它们上传到S3。有一个下游任务将CSV数据加载到Redshift数据库表中。CSV中的列数可能会增加，从那时起，新文件中将包含新列。当发生这种情况时，我希望检测更改并自动将该列添加到目标Redshift表中。我的计划是在源CSV文件上运行Glue Crawler。模式中的任何更改都将在Glue Data

浏览 10提问于2018-01-15得票数 4

回答已采纳

2回答

如何使用AWS javascript SDK运行胶水爬虫？

、、、、

我正在尝试创建一个Lambda，一旦将文件添加到特定的s3存储桶中就会触发它。不幸的是，我找不到任何关于如何使用aws javascript sdk运行Glue Crawler的资源/文档。

浏览 0提问于2019-06-17得票数 2

1回答

我不希望Glue将同一表中的文件合并

、、

我有一个S3桶，其中包含4个文件夹，每个文件夹包含1个文件(其中一些是csv和一些拼图)，其中95%的文件列名是相同的。我创建了一个Glue爬虫，它指向这个S3桶，我希望它创建4个单独的表，但它没有，它仍然创建一个表，并将所有内容与一个名为“分区”的列合并，该列指示记录的来源(它来自csv/parquet文件<

浏览 12提问于2022-12-01得票数 0

4回答

AWS GLUE数据导入问题

、

这里有一个excel文件testFile.xlsx，如下所示：1 Montgomery County Muni Utility Dist No.39 TXWaterloo CUSD 5 IL5 Berea City SD OH现在我想将数据导入到AWS GLUE数据库中，AWS GLUE中的爬虫已经创建，运行爬虫后AWS GLUE数

浏览 1提问于2017-11-29得票数 2

1回答

AWS Glue* Crawler将所有数据发送到Glue Catalog和Athena，而无需Glue Job*

、、

我对AWS胶水有新的了解。我正在使用AWS Glue Crawler从两个S3存储桶中抓取数据。我在每个存储桶中都有一个文件。AWS Glue Crawler在AWS Glue Data Catalog中创建了两个表，我还可以在AWS Athena中查询数据。我的理解是为了在雅典娜中获取数据，我需要创建胶水作业，这将在雅典娜中提取数据，但我错了。Glue<

浏览 62提问于2021-10-08得票数 1

回答已采纳

1回答

爬虫正在创建一个名称后缀奇怪的表。

、、

我们还调用了一个爬虫来创建/更新雅典娜中的表。但是，它正在创建表，但在表名中添加了一些奇怪的后缀。glue_client = boto3.client("glue", region_name=

浏览 3提问于2020-08-04得票数 0

回答已采纳

2回答

我应该每次运行Glue爬虫来获取最新的数据吗？

、、、、

我有一个名为Employee的S3桶。每隔三个小时，我就会在桶里得到一个带有时间戳的文件。我将使用Glue作业将文件从S3移动到Redshift，并进行一些转换。我在S3桶中的输入文件将有一个固定的结构。我的Glue作业将使用通过爬行器在数据目录中创建的表作为输入。database = "test", tab

浏览 2提问于2020-06-23得票数 3

回答已采纳

1回答

AWS Glue不删除或弃用在已删除的S3数据上生成的表

、、、

由于用户错误，运行Glue爬虫程序的S3目录经常被.csv文件淹没。当Glue遍历S3目录时，它为每个200,000+ csv文件创建了一个表。我运行了一个脚本，不久之后删除了.csv文件(S3存储桶启用了版本控制)，并使用以下设置重新运行了Glue crawler： Schema updates in the data store Update在cloudwatch日志中-

浏览 19提问于2020-01-18得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

可以粘合爬虫读取xml压缩文件

胶爬虫无法使用snappy压缩json文件分类和创建表。

在AWS Glue中解压缩zip文件

AWS Glue ETL作业缺少crawler可见的字段

Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗？

防止AWS glue crawler创建多个表

如何使用glueContext.create_dynamic_frame_from_options读入大量Json存储桶

如何在雅典娜中使用多种文件格式

AWS Glue不会检测分区并在目录中创建1000+表

AWS雅典娜从从胶水爬虫输入csv创建的表返回零记录从S3

为什么Kinesis或Crawler要在我的数据中创建分区？

如何以编程方式读取AWS Glue* Data Catalog表架构*

如何使用AWS javascript SDK运行胶水爬虫？

我不希望Glue将同一表中的文件合并

AWS GLUE数据导入问题

AWS Glue* Crawler将所有数据发送到Glue Catalog和Athena，而无需Glue Job*

爬虫正在创建一个名称后缀奇怪的表。

我应该每次运行Glue爬虫来获取最新的数据吗？

AWS Glue不删除或弃用在已删除的S3数据上生成的表

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐