在S3中从Parquet文件创建表并加载红移数据 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

如何控制红移中数据量的增加？

、、、

我在AWS Redshift中维护了一个数据仓库。最近，数据量和速度都有所增加。一种选择是，以更高的成本，水平地继续扩展集群。我想知道是否有任何可用的归档选项，以便我可以像往常一样查询整个数据(可能会在查询时间上出现折中)，但成本低或没有额外成本？一种选择是直接从S3中使用外部表和查询数据，但是用于实现这一目标的工具，比如雅典娜和Glue，也有自己的成本，这也是基于每次查询的。

浏览 2提问于2018-06-19得票数 0

回答已采纳

2回答

将拼图文件加载到Redshift中

、、、、

我在S3上有一堆拼图文件，我想以最优的方式将它们加载到红移中。将每个文件拆分为多个chunks......what是将数据从S3加载到Redshift的最佳方式吗？另外，如何在Redshift中创建目标表定义？有没有一种方法可以从Parquet中推断出模式并以编程方式<em

浏览 2提问于2018-09-06得票数 6

2回答

如何将特定的列加载到红移谱中？

、、

我试图将特定的列加载到Redshift谱中，但数据似乎是按位置加载的，这意味着我为列名所放的内容并不重要。为了使这一点更加具体：create external table spectrum.Foo()LOCATION 's3://data/

浏览 3提问于2017-07-07得票数 1

回答已采纳

2回答

让我稍微解释一下这个场景:我在S3 (ORC，Parquet)上存储了数百个蜂窝表，所以只需要澄清一下HDFS。现在，我有兴趣将其中一些迁移到Redshift来运行一些性能测试。我知道redshift不支持ORC，Parquet，所以我需要创建一些CSV/JSON来使用COPY命令。我正在考虑使用Hive本身创建临时CSV表，然后迁移到Redshift。我还在考虑使用Spark来移动这些数据。有过这种情况的人吗？

浏览 0提问于2018-03-14得票数 1

回答已采纳

2回答

从PostgreSQL到AWS S3的数据移动和RedShift频谱分析

、、、、

我有大量不同模式的PostgreSQL表，以及其中的大量数据。我现在无法进行数据分析，因为数据量相当大--一些TB的数据和PostgreSQL无法在合理的时间内处理查询。我正在考虑以下方法--我将使用Apache处理我的所有PostgreSQL表，加载DataFrames并将它们存储为AWS S3中的Parquet文件。然后，我将使用RedShift谱来查询存储在这些拼花

浏览 0提问于2018-11-05得票数 1

回答已采纳

2回答

AWS Glue ETL作业失败，返回AnalysisException: U‘’Unable to推断拼花面板的架构。必须手动指定。；‘

、、、

我正在尝试创建AWS Glue ETL Job，将数据从存储在S3中的拼图文件加载到红移表中。拼图文件是使用带有‘简单’文件模式选项的pandas编写到一个S3 bucked中的多个文件夹中的。/parquet_table/01/

浏览 1提问于2017-11-14得票数 3

1回答

AWS数据湖

、、、、

还是允许胶水在您的数据湖中爬行s3桶以使用这些数据格式？我已经浏览过"“文档，我不得不绞尽脑汁地想要把数据输入湖里。我有一个数据提供程序，它以excel和access文件的形式存储在他们的系统中。基于流程流，他们会将数据上载到提交s3桶中，这将引发一系列操作，但没有将数据转换为与其他工具一起工作的格式。使用这些文件是否需要对在

浏览 4提问于2017-09-21得票数 2

回答已采纳

2回答

是“插入选择”，不受红移中的竞赛条件影响。

、、、

我们有一个数据仓库系统，需要将s3上以csv格式显示的数据加载到红移表中。唯一的限制是只有唯一的记录被插入红移。创建一个临时表。将S3文件复制到TEMOPRARY表中。开始交易插入到{主红移表</em

浏览 2提问于2016-05-09得票数 0

1回答

将两个分区文件夹合并到一个表中

、、

我使用拼图文件格式从2个红移表中导出数据。')credentials 'aws_access_key_id=xxx;aws_secret_access_key=xxxx' PARQUETPARTITION BY (senderid) include; 数据是按senderid分区

浏览 27提问于2020-12-15得票数 0

回答已采纳

2回答

红移谱显示所有行的空值。

当我在雅典娜查询编辑器中运行这个查询时，它可以正常工作。drop schema "athena_schema"; create external schema athena_schema from d

浏览 1提问于2019-10-03得票数 3

回答已采纳

2回答

将日期为S3的.parquet文件复制到Redshift

、、、

我正在尝试从S3中使用COPY命令将.parquet文件加载到我的红移数据库中。该文件包含一个日期格式为2018-10-28的列。Redshift中表中的相关字段定义为date。源spark数据帧将字段显示为datetime64，并将其转换为pandas，因为它是时间戳。使用简单的COPY dates FROM s3://mybucket&#

浏览 4提问于2019-08-30得票数 0

1回答

将拼花文件复制到具有逗号分隔数据的Redshift中的错误

、、、

我试图将位于S3中的拼花文件复制到Redshift，但由于一列中有逗号分隔的数据，它失败了。有谁知道如何在地板文件中处理这样的场景吗？文件中的Parquet数据示例"column_2" : "data2"COPY schema.tabl

浏览 10提问于2022-11-29得票数 0

1回答

无效数字，值‘“，Pos 0，键入:红移中的十进制

、、、、

在尝试将数据从AWS S3加载到红移时，我面临十进制类型红移表中任何列的问题。我能够加载非十进制数字在红移，但不能加载数据类型，如数字(18，4)。S3中的DF模式:整数，B字符串，C小数(18，4)，D时间戳红移表模式

浏览 1提问于2021-04-05得票数 1

回答已采纳

1回答

我可以强制Redshift不对特定的外部架构使用Lake权限吗？

、

'location 's3://mybucket/folder1/LATEST_redshift_external_location_manifest.json'在我的例子中，IAM角色ruben_redshift_external 具有完全访问S3、

浏览 4提问于2021-08-12得票数 1

1回答

具有Snappy压缩功能的Parquet格式的红移复制命令

、、、、

我有HDFS格式的数据集，它是以snappy作为压缩编解码器的拼接格式。据我所知，目前Redshift只接受纯文本，json，avro格式的gzip，lzo压缩编解码器。或者，我将拼图格式转换为纯文本，并使用Pig脚本将snappy编解码器更改为gzip。目前有没有一种方法可以直接将数据从地块文件加载到Redshift？

浏览 2提问于2016-03-10得票数 5

回答已采纳

3回答

S3到红移复制命令

、、、

我正在尝试使用copy命令将一些数据从S3存储桶复制到红移表中。该文件的格式为PARQUET。当我运行执行复制命令查询时，我得到InternalError_：频谱扫描错误。如果对此有解决方案，请帮助我。我在python中使用boto3。

浏览 3提问于2020-03-30得票数 5

回答已采纳

1回答

红移频谱查询- S3查询层中内存不足的请求

、、、

数据以按日分区的S3格式存储。红移频谱查询在错误下面返回。我无法在aws中找到有关这方面的任何相关文档。S3查询层中的请求内存不足 

浏览 2提问于2018-10-18得票数 0

回答已采纳

1回答

我们是否可以使用copy命令使用访问密钥和密钥将数据从S3加载到红移表中(无需使用IAM角色)

、、

我有一个需求，我需要将数据从S3加载到红移表中。S3中的文件是拼图格式的。我没有IAM策略，但有S3访问密钥和密钥。注意事项: Redshift和S3在两个不同的亚马逊网络服务账户中，然而这两个账户在同一个地区。我尝试过的： copy abc from 's3://

浏览 0提问于2020-05-22得票数 1

1回答

如何在红移光谱中创建嵌套拼花类型的外部表

、、

我知道红移和红移光谱不支持嵌套类型，但我想知道有什么技巧可以绕过这个限制，用红移光谱在S3中查询我们的嵌套数据？在这个中，他展示了如何对JSON文件执行此操作，但对Parquet则不同。我们有没有其他技巧可以应用在拼图文件上？实际的Schema类似于：(由AWS-Glue爬虫提取)

浏览 8提问于2018-02-06得票数 0

1回答

将csv数据加载到Redshift中

、、、、

我正在使用Kinesis消防软管处理数据为红移，我正在尝试Json和Csv格式。从's3://foldername/‘凭据’products_json _iam_role=arn:aws：：/‘json 'auto';中复制命令放入记录

浏览 6提问于2017-02-28得票数 0

回答已采纳

点击加载更多

如何控制红移中数据量的增加？

将拼图文件加载到Redshift中

如何将特定的列加载到红移谱中？

将蜂巢表迁移到红移

从PostgreSQL到AWS S3的数据移动和RedShift频谱分析

AWS Glue ETL作业失败，返回AnalysisException: U‘’Unable to推断拼花面板的架构。必须手动指定。；‘

AWS数据湖

是“插入选择”，不受红移中的竞赛条件影响。

将两个分区文件夹合并到一个表中

红移谱显示所有行的空值。

将日期为S3的.parquet文件复制到Redshift

将拼花文件复制到具有逗号分隔数据的Redshift中的错误

无效数字，值‘“，Pos 0，键入:红移中的十进制

我可以强制Redshift不对特定的外部架构使用Lake权限吗？

具有Snappy压缩功能的Parquet格式的红移复制命令

S3到红移复制命令

红移频谱查询- S3查询层中内存不足的请求

我们是否可以使用copy命令使用访问密钥和密钥将数据从S3加载到红移表中(无需使用IAM角色)

如何在红移光谱中创建嵌套拼花类型的外部表

将csv数据加载到Redshift中

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐