使用PySpark上传数据到红移

文章/答案/技术大牛

发布

1回答

、、、、

我有一个用pyspark写的脚本。我尝试做的是使用pyspark从亚马逊网络服务的S3存储桶中读取*.csv文件。我创建了一个包含所有数据的DataFrame，选择我需要的所有列，并将它们转换为我的红移表期望的类型： mapping = [('id', StringType), ('session', StringTypepassword", "...").\ option("aws_

浏览 17提问于2020-12-30得票数 4

回答已采纳

2回答

使用pyspark将数据帧移动到红移

、

我有一张红移的桌子1, 'aaa', 'xxx'我在pyspark中有一个dataframe5, 'ddd', 'xyx' 现在我需要使用upsert模式将pyspark中的数据帧上传

浏览 6提问于2018-01-09得票数 1

2回答

将蜂巢表迁移到红移

、、

我知道redshift不支持ORC，Parquet，所以我需要创建一些CSV/JSON来使用COPY命令。我正在考虑使用Hive本身创建临时CSV表，然后迁移到Redshift。我还在考虑使用Spark来移动这些数据。有过这种情况的人吗？

浏览 0提问于2018-03-14得票数 1

回答已采纳

1回答

AWS数据湖

、、、、

您需要使用胶水摄取excel和其他专有格式吗?还是允许胶水在您的数据湖中爬行s3桶以使用这些数据格式？基于流程流，他们会将数据上载到提交s3桶中，这将引发一系列操作，但没有将数据转换为与其他工具一起工作的格式。使用这些文件是否需要对在桶中提交的数据使用</e

浏览 4提问于2017-09-21得票数 2

回答已采纳

1回答

是否有任何方法可以忽略不正确的记录，继续使用下一条记录，同时使用COPY命令从s3上传数据进行红移？

、、

我在s3中有一个‘s3’文件，其中包含大量的文本数据。我试图上传数据从s3到红移表，但我的数据是不一致的，它有很多特殊的字符。有些记录可能会被红移所否定。我想忽略这一记录，继续下一项记录。是否可以使用COPY命令忽略该记录？我期待异常处理功能，同时使用复制命令上传数据从s3到Redshift。

浏览 4提问于2022-11-11得票数 0

1回答

将拼花文件复制到具有逗号分隔数据的Redshift中的错误

、、、

我试图将位于S3中的拼花文件复制到Redshift，但由于一列中有逗号分隔的数据，它失败了。有谁知道如何在地板文件中处理这样的场景吗？"column_16" : "test1, test2"COPY schema.table_nameIAM_ROLE

浏览 10提问于2022-11-29得票数 0

1回答

如何有效地将数据从Postgres传输到Amazon？

、、、

在我的机器上，我的本地Postgres数据库中有这么多数据。我需要对这个本地数据库中的数据进行反分类，并获得一个特定格式的查询集，该查询集可以使用Python直接加载到红移表中。我确实有一些查询，可以在本地数据库上运行，并获得需要直接加载到红移的特定格式的查询集。但是有这么多的数据，我需要从本地移动到红移。现在，我能想到的唯一更好的方法是将我获得的查询集导出到一

浏览 2提问于2019-10-09得票数 2

回答已采纳

1回答

通过节点js将数据上载到红移。

、、

最近，我很好奇是否可以通过节点js上传数据以进行红移。我遵循下面的链接：，但我不明白通过S3做了什么？我希望通过节点js上传数据以进行红移，指定要插入数据的特定表和属性字段。有可能吗？

浏览 2提问于2021-07-08得票数 2

回答已采纳

1回答

使用Pyspark在红移时执行查询

、、

你们中有谁能建议使用pyspark在红移表上执行查询的方法吗？

浏览 2提问于2021-07-29得票数 0

1回答

为什么星火需要S3来连接红移仓库？同时，巨蟒熊猫可以直接阅读红移表。

、、、

我刚从AWS和Pyspark开始。我当时正在查看pyspark库，并且我看到S3中需要一个tempdir才能读取红移中的数据。我的问题是，为什么pyspark需要这个S3临时目录。其他库，例如Pandas，可以直接读取Redshift表，而无需使用任何临时目录。感谢每个人。路易斯

浏览 4提问于2022-05-14得票数 0

1回答

使用AWS处理.csv数据的最佳方法

、、、、

因此，每天我都会上传(自动)很多.csv文件到我的s3桶中，下一步是将/merge/concat/etc加入到一个更最终的状态中，以便将它上传到redshift。为了做到这一点，你给我提供了哪些服务？我分析了不同的方法： s3 -> EC2 ->使用Python ->红移处理数据(我不认为这真的很有效) s3 ->管道-> EMR ->管道->红移(我对EMR有0

浏览 4提问于2017-07-13得票数 0

回答已采纳

1回答

上传熊猫数据到红移关系"sqlite_master“不存在

、

我正在尝试写一个从熊猫到红移的数据。;': relation "sqlite_master" does not exist我可以使用相同

浏览 0提问于2019-11-22得票数 11

回答已采纳

1回答

用火花变换红移表

、、、、

我试图在当前红移表的基础上创建一个红移表，我有一个脚本执行以下步骤：为了让这个过程更快，我想可能需要减少了我查询原始表的次数代替了Pandas.我发现有一个包调用火花红<e

浏览 1提问于2021-05-06得票数 0

1回答

如何编写AWS Glue脚本将新数据插入红移表

、、

我是AWS Glue的新手，我希望创建一个使用我编写的SQL脚本( INSERT INTO语句)的作业，并填充我在Redshift中拥有的空表。这个是可能的吗？如果是的话，语法是什么？将数据从Redshift中的一个表复制到另一个表。from awsglue.transforms import *from p

浏览 9提问于2020-06-26得票数 0

1回答

将数据写入数据库的最快方法

、、

我有一个红移集群，我把数据上传到其中(基本上，我每天只使用熊猫来替换数据)，.The上传的频率是每小时一次，记录的数量接近35K。(它们每天都在增加) 现在，我想知道将数据写入集群的最快方法。我是否使用delete查询手动删除现有数据，然后使用"dataframe.to_sql“将数据写入红移？处理大量记录的数据的最快

浏览 5提问于2020-11-02得票数 0

回答已采纳

1回答

将Spark模式转换为Redshift频谱嵌套模式

、、、

在EMR集群上使用Apache Spark，我读入了xml数据，推断出了模式，并将其以parquet格式存储在s3上。从本质上讲，它现在是一个嵌套表。如何将模式从Spark提供的格式转换为Redshift Spectrum的CREATE EXTERNAL TABLE语句所需的格式？我还没有找到任何现有的工具来完成从星火模式格式到红移光谱外部表格式的转换(参见 ) Spark模式是

浏览 16提问于2019-08-02得票数 0

回答已采纳

3回答

S3到红移复制命令

、、、

我正在尝试使用copy命令将一些数据从S3存储桶复制到红移表中。该文件的格式为PARQUET。当我运行执行复制命令查询时，我得到InternalError_：频谱扫描错误。我在python中使用boto3。

浏览 3提问于2020-03-30得票数 5

回答已采纳

1回答

指定字符串长度大于256的pyspark* dataframe架构*

、、、

我想把它们写到红移上。根据这一点：在创建数据帧时指定模式应该是一种变通方法。我不能让它工作。如何使用varchar(max)指定模式？

浏览 9提问于2018-09-06得票数 1

回答已采纳

2回答

是“插入选择”，不受红移中的竞赛条件影响。

、、、

我们有一个数据仓库系统，需要将s3上以csv格式显示的数据加载到红移表中。唯一的限制是只有唯一的记录被插入红移。创建一个临时表。将S3文件复制到TEMOPRARY表中。开始交易结束交易 select子查询中<

浏览 2提问于2016-05-09得票数 0

2回答

使用"Overwirte“模式将PySpark保存到红移表会导致删除表？

、

使用AWS中的PySpark将数据从S3文件加载到Redshift表，在代码使用模式(“Overwirte”)中，有错误声明“由于其他对象依赖于表而不能删除表”，结果是在该表的顶部创建了视图，接缝“改写”模式实际上是删除并重新创建红移表，然后加载数据，是否有任何选项只能“截断”表而不删除它？

浏览 1提问于2018-05-21得票数 0

回答已采纳

点击加载更多