腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
PySpark
上传
数据
到
红
移
、
、
、
、
我有一个用
pyspark
写的脚本。我尝试做的是
使用
pyspark
从亚马逊网络服务的S3存储桶中读取*.csv文件。我创建了一个包含所有
数据
的DataFrame,选择我需要的所有列,并将它们转换为我的
红
移
表期望的类型: mapping = [('id', StringType), ('session', StringTypepassword", "...").\ option("aws_
浏览 17
提问于2020-12-30
得票数 4
回答已采纳
2
回答
使用
pyspark
将
数据
帧移动到
红
移
、
我有一张
红
移
的桌子1, 'aaa', 'xxx'我在
pyspark
中有一个dataframe5, 'ddd', 'xyx' 现在我需要
使用
upsert模式将
pyspark
中的
数据
帧
上传
浏览 6
提问于2018-01-09
得票数 1
2
回答
将蜂巢表迁移到
红
移
、
、
我知道redshift不支持ORC,Parquet,所以我需要创建一些CSV/JSON来
使用
COPY命令。我正在考虑
使用
Hive本身创建临时CSV表,然后迁移到Redshift。我还在考虑
使用
Spark来移动这些
数据
。有过这种情况的人吗?
浏览 0
提问于2018-03-14
得票数 1
回答已采纳
1
回答
AWS
数据
湖
、
、
、
、
您需要
使用
胶水摄取excel和其他专有格式吗?还是允许胶水在您的
数据
湖中爬行s3桶以
使用
这些
数据
格式?基于流程流,他们会将
数据
上载到提交s3桶中,这将引发一系列操作,但没有将
数据
转换为与其他工具一起工作的格式。
使用
这些文件是否需要对在桶中提交的
数据
使用</e
浏览 4
提问于2017-09-21
得票数 2
回答已采纳
1
回答
是否有任何方法可以忽略不正确的记录,继续
使用
下一条记录,同时
使用
COPY命令从s3
上传
数据
进行
红
移
?
、
、
我在s3中有一个‘s3’文件,其中包含大量的文本
数据
。我试图
上传
数据
从s3
到
红
移
表,但我的
数据
是不一致的,它有很多特殊的字符。有些记录可能会被
红
移
所否定。我想忽略这一记录,继续下一项记录。是否可以
使用
COPY命令忽略该记录? 我期待异常处理功能,同时
使用
复制命令
上传
数据
从s3
到
Redshift。
浏览 4
提问于2022-11-11
得票数 0
1
回答
将拼花文件复制
到
具有逗号分隔
数据
的Redshift中的错误
、
、
、
我试图将位于S3中的拼花文件复制
到
Redshift,但由于一列中有逗号分隔的
数据
,它失败了。有谁知道如何在地板文件中处理这样的场景吗?"column_16" : "test1, test2"COPY schema.table_nameIAM_ROLE
浏览 10
提问于2022-11-29
得票数 0
1
回答
如何有效地将
数据
从Postgres传输到Amazon?
、
、
、
在我的机器上,我的本地Postgres
数据
库中有这么多
数据
。我需要对这个本地
数据
库中的
数据
进行反分类,并获得一个特定格式的查询集,该查询集可以
使用
Python直接加载到
红
移
表中。我确实有一些查询,可以在本地
数据
库上运行,并获得需要直接加载到
红
移
的特定格式的查询集。 但是有这么多的
数据
,我需要从本地移动到
红
移
。现在,我能想到的唯一更好的方法是将我获得的查询集导出到一
浏览 2
提问于2019-10-09
得票数 2
回答已采纳
1
回答
通过节点js将
数据
上载到
红
移
。
、
、
最近,我很好奇是否可以通过节点js
上传
数据
以进行
红
移
。我遵循下面的链接:,但我不明白通过S3做了什么?我希望通过节点js
上传
数据
以进行
红
移
,指定要插入
数据
的特定表和属性字段。有可能吗?
浏览 2
提问于2021-07-08
得票数 2
回答已采纳
1
回答
使用
Pyspark
在
红
移时执行查询
、
、
你们中有谁能建议
使用
pyspark
在
红
移
表上执行查询的方法吗?
浏览 2
提问于2021-07-29
得票数 0
1
回答
为什么星火需要S3来连接
红
移
仓库?同时,巨蟒熊猫可以直接阅读
红
移
表。
、
、
、
我刚从AWS和
Pyspark
开始。我当时正在查看
pyspark
库,并且我看到S3中需要一个tempdir才能读取
红
移
中的
数据
。我的问题是,为什么
pyspark
需要这个S3临时目录。其他库,例如Pandas,可以直接读取Redshift表,而无需
使用
任何临时目录。感谢每个人。 路易斯
浏览 4
提问于2022-05-14
得票数 0
1
回答
使用
AWS处理.csv
数据
的最佳方法
、
、
、
、
因此,每天我都会
上传
(自动)很多.csv文件到我的s3桶中,下一步是将/merge/concat/etc加入
到
一个更最终的状态中,以便将它
上传
到redshift。为了做到这一点,你给我提供了哪些服务?我分析了不同的方法: s3 -> EC2 ->
使用
Python ->
红
移
处理
数据
(我不认为这真的很有效) s3 ->管道-> EMR ->管道->
红
移
(我对EMR有0
浏览 4
提问于2017-07-13
得票数 0
回答已采纳
1
回答
上传
熊猫
数据
到
红
移
关系"sqlite_master“不存在
、
我正在尝试写一个从熊猫
到
红
移
的
数据
。;': relation "sqlite_master" does not exist我可以
使用
相同
浏览 0
提问于2019-11-22
得票数 11
回答已采纳
1
回答
用火花变换
红
移
表
、
、
、
、
我试图在当前
红
移
表的基础上创建一个
红
移
表,我有一个脚本执行以下步骤:为了让这个过程更快,我想可能需要 减少了我查询原始表的次数代替了Pandas.我发现有一个包调用火花红<e
浏览 1
提问于2021-05-06
得票数 0
1
回答
如何编写AWS Glue脚本将新
数据
插入
红
移
表
、
、
我是AWS Glue的新手,我希望创建一个
使用
我编写的SQL脚本( INSERT INTO语句)的作业,并填充我在Redshift中拥有的空表。这个是可能的吗?如果是的话,语法是什么?将
数据
从Redshift中的一个表复制
到
另一个表。from awsglue.transforms import *from
p
浏览 9
提问于2020-06-26
得票数 0
1
回答
将
数据
写入
数据
库的最快方法
、
、
我有一个
红
移
集群,我把
数据
上传
到其中(基本上,我每天只
使用
熊猫来替换
数据
),.The
上传
的频率是每小时一次,记录的数量接近35K。(它们每天都在增加) 现在,我想知道将
数据
写入集群的最快方法。我是否
使用
delete查询手动删除现有
数据
,然后
使用
"dataframe.to_sql“将
数据
写入
红
移
?处理大量记录的
数据
的最快
浏览 5
提问于2020-11-02
得票数 0
回答已采纳
1
回答
将Spark模式转换为Redshift频谱嵌套模式
、
、
、
在EMR集群上
使用
Apache Spark,我读入了xml
数据
,推断出了模式,并将其以parquet格式存储在s3上。从本质上讲,它现在是一个嵌套表。如何将模式从Spark提供的格式转换为Redshift Spectrum的CREATE EXTERNAL TABLE语句所需的格式?我还没有找到任何现有的工具来完成从星火模式格式
到
红
移
光谱外部表格式的转换(参见 ) Spark模式是
浏览 16
提问于2019-08-02
得票数 0
回答已采纳
3
回答
S3
到
红
移
复制命令
、
、
、
我正在尝试
使用
copy命令将一些
数据
从S3存储桶复制
到
红
移
表中。该文件的格式为PARQUET。当我运行执行复制命令查询时,我得到InternalError_:频谱扫描错误。 我在python中
使用
boto3。
浏览 3
提问于2020-03-30
得票数 5
回答已采纳
1
回答
指定字符串长度大于256的
pyspark
dataframe架构
、
、
、
我想把它们写到
红
移上。根据这一点:在创建
数据
帧时指定模式应该是一种变通方法。我不能让它工作。 如何
使用
varchar(max)指定模式?
浏览 9
提问于2018-09-06
得票数 1
回答已采纳
2
回答
是“插入选择”,不受
红
移
中的竞赛条件影响。
、
、
、
我们有一个
数据
仓库系统,需要将s3上以csv格式显示的
数据
加载到
红
移
表中。唯一的限制是只有唯一的记录被插入
红
移
。创建一个临时表。将S3文件复制
到
TEMOPRARY表中。开始交易结束交易 select子查询中<
浏览 2
提问于2016-05-09
得票数 0
2
回答
使用
"Overwirte“模式将
PySpark
保存到
红
移
表会导致删除表?
、
使用
AWS中的
PySpark
将
数据
从S3文件加载到Redshift表,在代码
使用
模式(“Overwirte”)中,有错误声明“由于其他对象依赖于表而不能删除表”,结果是在该表的顶部创建了视图,接缝“改写”模式实际上是删除并重新创建
红
移
表,然后加载
数据
,是否有任何选项只能“截断”表而不删除它?
浏览 1
提问于2018-05-21
得票数 0
回答已采纳
点击加载更多
相关
资讯
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
PySpark算子处理空间数据全解析(5):如何在PySpark里面使用空间运算接口
使用Git Extensions上传文件到码云
使用git首次上传代码到码云
ftp软件下载安装教程,及如何使用ftp上传网站文件到空间
热门
标签
更多标签
云服务器
ICP备案
云直播
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券