Glue中是否有更新表的选项？

、

我将按天分区的数据存储在S3中，即customer/year=2020/month=04/day=05中，并且我有一个爬虫来编目这些数据。数据每天都会到达。在该示例中，Glue中是否有更新customer表的选项？例如，假设在day=06上发现了新客户，然后将其添加到表中，但是假设现有客户已经<em

浏览 34提问于2020-04-06得票数 2

3回答

用AWS胶覆盖MySQL表

、、、

我有一个lambda进程，它偶尔会对最近的数据进行API轮询。这个数据有唯一的键，我想使用Glue更新MySQL中的表。是否有使用此键覆盖数据的选项？(类似于星火的mode=overwrite)。如果没有-在插入所有新数据之前，我是否能够在Glue中截断表？谢谢

浏览 8提问于2017-11-29得票数 8

回答已采纳

1回答

在Glue目录中构建表格

、、、

有没有办法在Glue Catalog中创建或更新表？我们使用以下DDL在Glue Catalog中创建一个表(和数据库)： CREATE DATABASE IF NOT EXISTS glue_catalog; 'delimiter'='|', 'skip.header.line.count'='1&#x

浏览 39提问于2021-11-08得票数 0

4回答

如何通过cloudformation为glue crawler设置“从表继承模式”？

、、

aws glue crawler的web colsole中的Schema change policy部分包含3个点，而CloudFormation节模板只定义了2个点。是否有方法从cloudformation中设置"Inherit schema from table“参数？

浏览 0提问于2018-01-19得票数 4

1回答

消防软管记录格式转换不能读取从现有模式创建的胶表模式。

、、、

以下是参数：从 post来看，如果所述表是从现有模式创建的，则火软管似乎无法读取表架构。有人能证实这一点吗？指定的表没有列。我的其他选项是使用爬虫或手动创建表。我想自己给这张桌子起名字，所以我想和后者一起去。是否有办法让Firehose更新</em

浏览 5提问于2021-11-02得票数 0

1回答

是否必须在aws glue作业中建立连接？

、、、

我在Glue元数据目录中有我的数据表。我需要在glue作业的python shell脚本中使用这些数据。当我创建胶水作业时，它给了我最后一个选择连接类型的选项。是否必须添加连接？如果表在glue目录中，那么连接类型是什么？

浏览 18提问于2021-05-07得票数 0

回答已采纳

6回答

AWS Glue* Crawler为每个分区添加表？*

、、

等预期行为: AWS Glue Crawler为somedata、moredata等创建一个表。它根据子节点的路径名为每个表创建分区。实际行为: AWS Glue Crawler执行上述行为，但也会为数据的每个分区创建一个单独的表，从而导致数百个无关表(以及每个数据添加的更多无关表+新的爬网)。我看不出有什么地方可以设置或阻止这种情况发生……有没有人有关于防止创建这些不必要<em

浏览 2提问于2018-01-22得票数 13

2回答

pyspark:在创建数据时，模式中指定的数据类型不反映在数据中

、、、、

StructField('variance', DoubleType()),我有许多行遵循这个精确的模式，并且我正在创建数据文件，具体如下：然后，我将此数据写入AWS S3中的CSV文件： DF.repartition并在S3中创建CSV文件。现在

浏览 0提问于2018-02-05得票数 0

2回答

为什么我的AWS Glue爬虫不创建任何表？

、

我正在尝试使用AWS来ETL，这是RDS到S3中的一个S3数据库，这样我就可以使用SageMaker或雅典娜这样的服务中的数据。我已经建立了一个Glue数据库并成功地测试了到RDS的连接我使用Glue数据库、AWSGlue服务角色和上面提供的<em

浏览 0提问于2019-01-10得票数 2

1回答

数据目录表作为源

、、

我正在尝试创建一个Crawler来扫描S3桶Parquet文件，并更新Glue数据目录中现有表的分区信息。还有别的选择吗？

浏览 0提问于2019-10-10得票数 0

回答已采纳

1回答

我们能换张胶水的桌子吗？

、

如果我使用Glue作为亚稳态，是否可以更改现有表(比如添加新列或更改列的数据类型)？唯一能找到的方法是删除现有的表，然后用更改的模式创建一个新表。如果存在修改现有表本身的方法，请提供帮助。编辑-我的意思是要求通过Glue API更新模式，而不是通过AWS Glue UI更新，因为我只能找到API来创建或删除表，

浏览 6提问于2020-09-07得票数 0

1回答

我正在通过aws glue爬行数据到数据目录。但是我对数据库的定义有点困惑。根据我在亚马逊网络服务文档A database in the AWS Glue Data Catalog is a container that holds tables.它是否加载来自其他数据源的所有数据并在这些数据源上创建目录？或者它只包含目录？如何知道glue数据库中表的大小？以及它使用的数据库类型，如nosql、rds 例如，我创建了一个爬虫程序来从s3加载数据，并在<

浏览 17提问于2019-07-25得票数 1

回答已采纳

1回答

防止AWS glue* crawler创建多个表*

我创建了一个glue爬虫，它爬行数据并在glue数据目录中创建表。假设我有一个CSV文件(file1.csv)，它的模式类似于(id，name)，一旦爬虫作业执行完毕，它就会创建包含2列(id，name)的雅典娜表(crawler_file)。目前，当glue爬虫正在执行时，它正在创建一个新的带有模式(id，name，roll_no)的雅典娜表(crawler_file_111)。

浏览 13提问于2018-12-19得票数 2

回答已采纳

1回答

如何在雅典娜中使用多种文件格式

、、

我在s3存储桶目录中有多个不同格式的文件(csv、json和parquet) (所有文件都在同一个目录中)。所有文件都具有相同的结构。如何使用这些文件创建Athena表？在创建表时，我们是否提供了不同的Serde？编辑:当我预览表时，创建了表，但没有数据。

浏览 2提问于2018-10-31得票数 1

1回答

在AWS胶中添加数据列

我找不到合适的子社区，所以我希望我的问题适合这里。我的问题是，几个月来，我一直在从第三方资源中提取数据，直到发现我遗漏了几个专栏文章，这样才会更好。在最初的设置中，只要重置所有内容并用一个新的数据表(包括胶水和红移)重新加载所有

浏览 1提问于2019-01-28得票数 2

1回答

为什么手工创建Glue* Crawler拾取的表不起作用*

、、、

我尝试在Glue Data Catalog中手动创建一个表，这是可以的，但是查询该表返回了0的结果。当我使用Glue Crawler获取相同的数据并生成表元数据时，它正常工作，并按预期返回数据。因此，我从工作表中生成了DDL，更改了名称并运行了DDL来创建一个具有不同名称的工作表的副本，但是新表现在返回了0的结果！尽管我所做的

浏览 7提问于2022-02-24得票数 0

2回答

将PySpark数据转换为Delta表

、、、

我将Glue目录中的数据作为动态数据读取，并将其转换为Pyspark dataframe以进行自定义转换。为了重新插入新的/更新的数据，我打算使用delta表。但我只找到从路径读取数据作为增量表的选项。为了执行合并操作，我需要将我的Pyspark转换为Delta表。有办法这样做吗？

浏览 7提问于2021-08-30得票数 3

回答已采纳

1回答

如何使用Java对雅典娜表执行AWS Glue* UpdateTable请求？*

、、、、

我们试图在现有的雅典娜表上运行ALTER DDL语句，这些表以前是通过常规Java StartQueryExecutionRequest创建的，而没有保存版本，因此我们不会遇到TABLE_VERSION我们已经运行了一段时间的应用程序，不知道以前的版本都被存储了，而且我们在AWS帐户中遇到了一个严格的限制。具体来说，我们正在使用AWS版本2(如果这很重要的话，2.10.66)以编程方式添加分区和更新avro模式。看起来，我们需要启用一个名为SkipAr

浏览 5提问于2020-02-19得票数 1

1回答

从雅典娜获取数据和粘合权限

、、、

我正在使用这里列出的代码通过雅典娜https://gist.github.com/schledererj/b2e2a800998d61af2bbdd1cd50e08b76查询数据。Version": "2012-10-17", { "Action": [ "glue:GetTa

浏览 17提问于2019-03-07得票数 1

回答已采纳

1回答

忽略对象键；只添加JSON主体？

、、

_2, name: name_2, other_data: data_2}理想情况下，我希望Glue表模式看起来是这样的：name:string但是Glue正在创建一个模式，即： id:string name:stringkey_3: id:st

浏览 1提问于2020-06-19得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

用AWS胶覆盖MySQL表

在Glue目录中构建表格

如何通过cloudformation为glue crawler设置“从表继承模式”？

消防软管记录格式转换不能读取从现有模式创建的胶表模式。

是否必须在aws glue作业中建立连接？

AWS Glue* Crawler为每个分区添加表？*

pyspark:在创建数据时，模式中指定的数据类型不反映在数据中

为什么我的AWS Glue爬虫不创建任何表？

数据目录表作为源

我们能换张胶水的桌子吗？

AWS glue中包含哪些数据类别？

防止AWS glue* crawler创建多个表*

如何在雅典娜中使用多种文件格式

在AWS胶中添加数据列

为什么手工创建Glue* Crawler拾取的表不起作用*

将PySpark数据转换为Delta表

如何使用Java对雅典娜表执行AWS Glue* UpdateTable请求？*

从雅典娜获取数据和粘合权限

忽略对象键；只添加JSON主体？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐