如何使用Glue转换JSON数据库列并将其加载到Redshift

、、、

理想情况下，我们希望使用Glue只解析第一个级别的JSON，并且基本上将较低级别作为大字符串对象(然后我们将根据需要使用Redshift谱解析这些对象)。目前，我们正在将整个记录加载到Redshift中的单个VARCHAR列中，但记录接近Redshift中数据类型的最大大小(最大VARCHAR长度为65535)。我们还没有找到一种方法来创建Glue ETL作业，该作业将从所有这些表中读取并加

浏览 0提问于2018-03-23得票数 23

回答已采纳

1回答

如何以编程方式读取AWS Glue* Data Catalog表架构*

、

有一个下游任务将CSV数据加载到Redshift数据库表中。CSV中的列数可能会增加，从那时起，新文件中将包含新列。当发生这种情况时，我希望检测更改并自动将该列添加到目标Redshift表中。我的计划是在源CSV文件上运行Glue Crawler。模式中的任何更改都将在Glue Data Catalog中生成表的新版本。然后，我想使用Java、.NET或其他语言以编程方式读取Glue</em

浏览 10提问于2018-01-15得票数 4

回答已采纳

1回答

AWS :使用混合数据从Datalake(S3)导入JSON

、、

目前，我很难理解如何创建数据湖的数据目录(=Source)。我们有一个事件驱动的体系结构，并开始将应用程序生成的所有事件存储到一个数据湖(S3 Bucket)。现在，我想我可以使用AWS来连接原始数据，并使用ETL来聚合事件数据。我想要达到的目标：将结果存储到当前的Analytics、RDS或任何

浏览 1提问于2019-07-02得票数 1

1回答

、、、

我正在尝试使用Glue复制一些生产数据库(从RDS mySQL到Redshift)。我在这方面取得了一些成功，但当涉及到包含JSON列的数据库时，我遇到了困难。理想情况下，我会将JSON数组拆分为多个列，以便于分析。有没有一种简单的方法可以用胶水做到这一点？如果这看起来很容易，请提前道歉，但我对该工具的了解有限。

浏览 33提问于2019-01-24得票数 0

2回答

Glue爬虫如何在红移表中加载数据？

、、、、

在我们的公司中，我们将数据存储在S3中，因此我在s3中创建了一个桶，并创建了一个AWS爬虫来将这个表加载到Redshift表(我们在公司中通常这样做)，我在Redshift上成功地看到了这一点。根据我的研究，Glue爬虫应该在Glue数据目录中创建与我的数据相关的元数据，这也是我能够看到的。以下是我的问题:我的爬虫是如何工作的，它是否将S3数据加载到Redshift？我的公司是否应该有一种特殊的配置，允许我将数据加载到</em

浏览 2提问于2021-05-20得票数 2

回答已采纳

1回答

如何在S3中从多个json文件中创建红移表

、

我想知道是否有可能从一个s3桶中创建一个包含所有JSON文件的表，我已经搜索了很多，但我找不到解决方案，如果有人能帮我提供任何提示，我会很感激的。

浏览 5提问于2022-02-16得票数 0

1回答

通过Spark和Glue将部分关系S3数据移植到红移

、、、、

首先，我应该为我的AWS帐户使用增强的VPC路由，从使用传统的S3到Redshift查询： “您的集群无法启用增强的VPC路由。因此，如果您有很多要查询/分析的关系数据，那么Redshift是一个很好的选择。我对Athena的理解是，它只是使用类似于Apache (或类似的)的东西来为存储在S3存储桶中的任何数据(关系数据和其他数据，以及任何格式:非结构化明文、JSON、XML等)提供类似SQL的接口。我已经在S3上创建了结构化/关系(存储在JSON</em

浏览 1提问于2018-05-15得票数 0

2回答

如何在AWS Glue中将JSON与扁平结构相关联

、、、、

尝试扁平化具有两个映射/字典字段(custom_event1和custom_event2)的输入JSON数据，这两个字段可能包含任何键值对数据。为了从数据框创建输出表，必须避免custom_events的扁平化，并将其作为JSON字符串存储在列中。 "id": "sklfsdfskdlfsdfsdfkhsdfssdf",

浏览 0提问于2018-01-13得票数 1

5回答

AWS Glue* to Redshift:重复数据？*

、、、、

以下是我如何设置内容的一些要点：但是，有没有办法在插入新数据之前替换或删除行？书签功能已启用，但不起作用。如何连接到redshi

浏览 0提问于2018-09-19得票数 0

3回答

从Amazon DMS到S3再到Redshift的ETL数据

、、、、

我目前正在S3中构建一个数据湖，并且已经成功地使用DMS将数据从mysql迁移到S3。在DMS中，我选择了“迁移现有数据并复制正在进行的更改”选项。我将数据转换为csv，但将来可能会选择拼花。此方法创建一个初始csv文件，其中包含来自数据库表的所有原始数据。然后，它创建具有插入、删除和更新功能的后续csv文件。现在我正在寻找一种将数据从S3复制到Redshift的策略。我正在寻找一种复制批量数据的策略，并将S3中的连续更改复制到Redshift中。我可能需要对这些数据进行汇总和总结。我

浏览 1提问于2017-11-12得票数 0

2回答

AWS胶布尔转换

、、

我正在使用AWS Glue，需要将一个Redshift数据仓库模式中的Boolean (True和False)列转换为另一个Redshift模式中的"Yes"/"No“。目前，在AWS Glue GUI中似乎没有一种简单的方法可以做到这一点。我一直遵循这里的指南：def ConvertBoolean(dataFrame,ColumnName): dataFrame["boolea

浏览 0提问于2018-10-12得票数 0

2回答

使用复制命令将数据从亚马逊S3加载到红移-如何在红移中存储复制时间

、、

我正在使用Amazon Firehose流式传输在线数据，使用Lambda应用转换，并通过S3将数据加载到Redshift。Firehose中的COPY命令为：我想知道Firehose制作S3到Redshift</em

浏览 4提问于2017-07-18得票数 0

2回答

如何将数据集列表转换为红移中的一组行

我有一个上传到Redshift数据库表中的两列的数据集：加载到表中后，我需要将其转换为一组行，并将其插入到另一个表中：我想知道Redshift中是否有我可以使用的特定函数，或者是否有人编写了特定的SQL计划来执行这种类型的转换。注:第二列中的数据可以从1个数据点到1000个数据点不等。

浏览 1提问于2016-11-26得票数 0

2回答

在写到Redshift* DW之前，如何从S3桶中转换数据？*

、、、

到目前为止，我已经将DMS设置为从业务数据库的某些表( EC2上的Server，而不是RDS)中摄取数据(包括更改的数据)，并将其直接存储到S3。现在，我必须从S3中转换和充实这些数据，然后才能将其写入Redshift。我们的DW有一些事实和维度表(星型模式)，因此，假设一个客户维度，它不仅应该包含客户基本信息，还应该包含地址信息、城市、州等。这些数据分布在我们的业务数据库中的几个表中。因此，我的问题是，我不清楚如何查询S3暂存区域，以便连接这些表并将其</e

浏览 1提问于2020-02-11得票数 2

回答已采纳

1回答

是否可以将mysql rds数据库中选择列的多个表中的数据添加到具有另一个mysql rds表的单个表中

、

是否可以使用AWS Glue将mysql rds数据库多个选择性列的表中的数据添加到具有另一个mysql rds实例的单个表中。谢谢

浏览 1提问于2020-01-06得票数 1

1回答

AWS Glue:如何使用不同模式的ETL非标量JSON

、、、、

通过数组索引的规范所需的json数组使用上述方法之一解析JSON和above数组“单varchar(655

浏览 0提问于2018-06-26得票数 0

1回答

亚马逊红移框架(Oracle数据仓库迁移)

、、

来自不同OLTP数据源的数据首先在Oracle暂存数据库中进行分级，然后当前加载到数据仓库中。目前，数据已使用大量PL/SQL存储过程在暂存数据库中进行转换，并加载到数据仓库中。OLTP数据源1-> JMS (MQ)实时-> Oracle数据库-> Oracle 注意: JMS MQ使用者将数据写入暂存数据库。OLTP数据源2-> CDC增量数据(每10分钟一次)-> Ora

浏览 1提问于2017-03-13得票数 0

1回答

使用AWS Glue从S3读取动态DataTpes

、、、

我将json存储在S3中。有时将units存储为字符串，有时将其存储为整数。不幸的是，这是一个bug，我现在在源json中有数十亿条具有混合匹配数据类型的记录。other_stuff": "stuff"{ { "units": "2", { 我想动态确定它是否是字符串/整数，然后将其作为整数目标放入AW

浏览 28提问于2021-11-22得票数 0

回答已采纳

3回答

每天更新云中20-30亿行数据集中的1亿行

、

像Glue这样的东西之所以会崩溃，是因为数据会有太多的分区(例如，一个表中有大约5,000-1亿个分区)。

浏览 13提问于2021-10-22得票数 0

6回答

AWS Glue* to Redshift:可以替换、更新或删除数据吗？*

、、、

以下是我如何设置的一些要点： data

浏览 10提问于2017-09-14得票数 30

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

AWS Glue:如何处理具有不同模式的嵌套JSON

如何以编程方式读取AWS Glue* Data Catalog表架构*

AWS :使用混合数据从Datalake(S3)导入JSON