腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5484)
视频
沙龙
5
回答
AWS
Glue
:
如何
处理具有不同模式的嵌套
JSON
、
、
、
理想情况下,我们希望
使用
Glue
只解析第一个级别的
JSON
,并且基本上将较低级别作为大字符串对象(然后我们将根据需要
使用
Redshift
谱解析这些对象)。目前,我们正在将整个记录加
载到
Redshift
中的单个VARCHAR
列
中,但记录接近
Redshift
中数据类型的最大大小(最大VARCHAR长度为65535)。我们还没有找到一种方法来创建
Glue
ETL作业,该作业将从所有这些表中读取
并
加
浏览 0
提问于2018-03-23
得票数 23
回答已采纳
1
回答
如何
以编程方式读取AWS
Glue
Data Catalog表架构
、
有一个下游任务将CSV数据加
载到
Redshift
数据库
表中。CSV中的
列
数可能会增加,从那时起,新文件中将包含新
列
。当发生这种情况时,我希望检测更改
并
自动将该
列
添加到目标
Redshift
表中。我的计划是在源CSV文件上运行
Glue
Crawler。模式中的任何更改都将在
Glue
Data Catalog中生成表的新版本。然后,我想
使用
Java、.NET或其他语言以编程方式读取
Glue</em
浏览 10
提问于2018-01-15
得票数 4
回答已采纳
1
回答
AWS :
使用
混合数据从Datalake(S3)导入
JSON
、
、
目前,我很难理解
如何
创建数据湖的数据目录(=Source)。我们有一个事件驱动的体系结构,
并
开始将应用程序生成的所有事件存储到一个数据湖(S3 Bucket)。现在,我想我可以
使用
AWS来连接原始数据,
并
使用
ETL来聚合事件数据。我想要达到的目标: 将结果存储到当前的Analytics、RDS或任何
浏览 1
提问于2019-07-02
得票数 1
1
回答
如何
使用
Glue
转换
JSON
数据库
列
并
将其
加
载到
Redshift
、
、
、
我正在尝试
使用
Glue
复制一些生产
数据库
(从RDS mySQL到
Redshift
)。我在这方面取得了一些成功,但当涉及到包含
JSON
列
的
数据库
时,我遇到了困难。理想情况下,我会将
JSON
数组拆分为多个
列
,以便于分析。有没有一种简单的方法可以用胶水做到这一点? 如果这看起来很容易,请提前道歉,但我对该工具的了解有限。
浏览 33
提问于2019-01-24
得票数 0
2
回答
Glue
爬虫
如何
在红移表中加载数据?
、
、
、
、
在我们的公司中,我们将数据存储在S3中,因此我在s3中创建了一个桶,
并
创建了一个AWS爬虫来将这个表加
载到
Redshift
表(我们在公司中通常这样做),我在
Redshift
上成功地看到了这一点。根据我的研究,
Glue
爬虫应该在
Glue
数据目录中创建与我的数据相关的元数据,这也是我能够看到的。以下是我的问题:我的爬虫是
如何
工作的,它是否将S3数据加
载到
Redshift
?我的公司是否应该有一种特殊的配置,允许我将数据加
载到</em
浏览 2
提问于2021-05-20
得票数 2
回答已采纳
1
回答
如何
在S3中从多个
json
文件中创建红移表
、
我想知道是否有可能从一个s3桶中创建一个包含所有
JSON
文件的表,我已经搜索了很多,但我找不到解决方案,如果有人能帮我提供任何提示,我会很感激的。
浏览 5
提问于2022-02-16
得票数 0
1
回答
通过Spark和
Glue
将部分关系S3数据移植到红移
、
、
、
、
首先,我应该为我的AWS帐户
使用
增强的VPC路由,从
使用
传统的S3到
Redshift
查询: “您的集群无法启用增强的VPC路由。因此,如果您有很多要查询/分析的关系数据,那么
Redshift
是一个很好的选择。我对Athena的理解是,它只是
使用
类似于Apache (或类似的)的东西来为存储在S3存储桶中的任何数据(关系数据和其他数据,以及任何格式:非结构化明文、
JSON
、XML等)提供类似SQL的接口。我已经在S3上创建了结构化/关系(存储在
JSON</em
浏览 1
提问于2018-05-15
得票数 0
2
回答
如何
在AWS
Glue
中将
JSON
与扁平结构相关联
、
、
、
、
尝试扁平化具有两个映射/字典字段(custom_event1和custom_event2)的输入
JSON
数据,这两个字段可能包含任何键值对数据。为了从数据框创建输出表,必须避免custom_events的扁平化,并
将其
作为
JSON
字符串存储在
列
中。 "id": "sklfsdfskdlfsdfsdfkhsdfssdf",
浏览 0
提问于2018-01-13
得票数 1
5
回答
AWS
Glue
to
Redshift
:重复数据?
、
、
、
、
以下是我
如何
设置内容的一些要点:但是,有没有办法在插入新数据之前替换或删除行? 书签功能已启用,但不起作用。
如何
连接到
redshi
浏览 0
提问于2018-09-19
得票数 0
3
回答
从Amazon DMS到S3再到
Redshift
的ETL数据
、
、
、
、
我目前正在S3中构建一个数据湖,并且已经成功地
使用
DMS将数据从mysql迁移到S3。在DMS中,我选择了“迁移现有数据
并
复制正在进行的更改”选项。我将数据
转换
为csv,但将来可能会选择拼花。此方法创建一个初始csv文件,其中包含来自
数据库
表的所有原始数据。然后,它创建具有插入、删除和更新功能的后续csv文件。 现在我正在寻找一种将数据从S3复制到
Redshift
的策略。我正在寻找一种复制批量数据的策略,并将S3中的连续更改复制到
Redshift
中。我可能需要对这些数据进行汇总和总结。我
浏览 1
提问于2017-11-12
得票数 0
2
回答
AWS胶布尔
转换
、
、
我正在
使用
AWS
Glue
,需要将一个
Redshift
数据仓库模式中的Boolean (True和False)
列
转换
为另一个
Redshift
模式中的"Yes"/"No“。目前,在AWS
Glue
GUI中似乎没有一种简单的方法可以做到这一点。我一直遵循这里的指南:def ConvertBoolean(dataFrame,ColumnName): dataFrame["boolea
浏览 0
提问于2018-10-12
得票数 0
2
回答
使用
复制命令将数据从亚马逊S3加
载到
红移-
如何
在红移中存储复制时间
、
、
我正在
使用
Amazon Firehose流式传输在线数据,
使用
Lambda应用
转换
,
并
通过S3将数据加
载到
Redshift
。Firehose中的COPY命令为:我想知道Firehose制作S3到
Redshift</em
浏览 4
提问于2017-07-18
得票数 0
2
回答
如何
将数据集列表
转换
为红移中的一组行
我有一个上传到
Redshift
数据库
表中的两
列
的数据集:加
载到
表中后,我需要
将其
转换
为一组行,并
将其
插入到另一个表中:我想知道
Redshift
中是否有我可以
使用
的特定函数,或者是否有人编写了特定的SQL计划来执行这种类型的
转换
。注:第二
列
中的数据可以从1个数据点到1000个数据点不等。
浏览 1
提问于2016-11-26
得票数 0
2
回答
在写到
Redshift
DW之前,
如何
从S3桶中
转换
数据?
、
、
、
到目前为止,我已经将DMS设置为从业务
数据库
的某些表( EC2上的Server,而不是RDS)中摄取数据(包括更改的数据),并
将其
直接存储到S3。现在,我必须从S3中
转换
和充实这些数据,然后才能
将其
写入
Redshift
。我们的DW有一些事实和维度表(星型模式),因此,假设一个客户维度,它不仅应该包含客户基本信息,还应该包含地址信息、城市、州等。这些数据分布在我们的业务
数据库
中的几个表中。 因此,我的问题是,我不清楚
如何
查询S3暂存区域,以便连接这些表并
将其</e
浏览 1
提问于2020-02-11
得票数 2
回答已采纳
1
回答
是否可以将mysql rds
数据库
中选择
列
的多个表中的数据添加到具有另一个mysql rds表的单个表中
、
是否可以
使用
AWS
Glue
将mysql rds
数据库
多个选择性
列
的表中的数据添加到具有另一个mysql rds实例的单个表中。谢谢
浏览 1
提问于2020-01-06
得票数 1
1
回答
AWS
Glue
:
如何
使用
不同模式的ETL非标量
JSON
、
、
、
、
通过数组索引的规范所需的
json
数组
使用
上述方法之一解析
JSON
和above数组“单varchar(655
浏览 0
提问于2018-06-26
得票数 0
1
回答
亚马逊红移框架(Oracle数据仓库迁移)
、
、
来自不同OLTP数据源的数据首先在Oracle暂存
数据库
中进行分级,然后当前加
载到
数据仓库中。目前,数据已
使用
大量PL/SQL存储过程在暂存
数据库
中进行
转换
,
并
加
载到
数据仓库中。OLTP数据源1-> JMS (MQ)实时-> Oracle
数据库
-> Oracle 注意: JMS MQ
使用
者将数据写入暂存
数据库
。OLTP数据源2-> CDC增量数据(每10分钟一次)-> Ora
浏览 1
提问于2017-03-13
得票数 0
1
回答
使用
AWS
Glue
从S3读取动态DataTpes
、
、
、
我将
json
存储在S3中。有时将units存储为字符串,有时
将其
存储为整数。不幸的是,这是一个bug,我现在在源
json
中有数十亿条具有混合匹配数据类型的记录。other_stuff": "stuff"{ { "units": "2", { 我想动态确定它是否是字符串/整数,然后
将其
作为整数目标放入AW
浏览 28
提问于2021-11-22
得票数 0
回答已采纳
3
回答
每天更新云中20-30亿行数据集中的1亿行
、
像
Glue
这样的东西之所以会崩溃,是因为数据会有太多的分区(例如,一个表中有大约5,000-1亿个分区)。
浏览 13
提问于2021-10-22
得票数 0
6
回答
AWS
Glue
to
Redshift
:可以替换、更新或删除数据吗?
、
、
、
以下是我
如何
设置的一些要点: data
浏览 10
提问于2017-09-14
得票数 30
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
数据湖和SQL并不矛盾
数据加载、存储与文件格式
NoSQL为什么需要模式自由的ETL工具?
AWS推出Apache Airflow全托管工作流MWAA
Python读取JSON键值对并导出为.csv表格
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券