腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
Spark
加速
S3
上
的
恢复
分区
?
、
、
我正在
使用
EMR
上
的
Spark
3.0将一些数据写在
S3
上
,并进行每日
分区
(数据可以追溯到大约5年前),方式如下: writer.option("path", somepath).saveAsTable("my_schema.my_table") 由于有大量
的
分区
,该进程仅“
恢复
分区
”就花费了很长时间,因为所有任务似乎都已完成。
浏览 14
提问于2021-04-30
得票数 0
1
回答
从
S3
读取
分区
数据-
分区
是
如何
发生
的
?
、
当我
使用
Spark
从
S3
读取多个文件时(例如一个包含多个Parquet文件
的
目录)-此外,
分区
是否默认为用于写
的
分区
(即每个文件=1个
分区
)?
浏览 0
提问于2018-11-11
得票数 5
回答已采纳
1
回答
S3
前缀中
的
回滚写入失败-通过
Spark
进行
分区
、
、
我们通过EMR
使用
Apache
Spark
(2.4.5)作业,它读取存储桶前缀{
S3
}/{ prefix }/*.json,执行一些数据消息,然后在覆盖模式下通过
Spark
作业save()将其重写回相同
的
我
的
问题是,如果
Spark
作业在将数据重写到
S3
前缀
分区
时失败,那么我们是否有办法以任何原子/事务方式
恢复
该前缀
分区
中
的
数据。
spark<
浏览 11
提问于2020-10-02
得票数 0
5
回答
spark
读取
S3
中
的
分区
数据部分在冰川中
、
、
、
我在
S3
的
拼图中有一个按日期(dt)
分区
的
数据集,其中最旧
的
日期存储在AWS Glacier中,以节省一些钱。例如,我们有..。
s3
://my-bucket/my-dataset/dt=2017-07-01/ [in glacier]
s3
://my-bucket/my-dataset/dt=2017-07-09/2017-08-24" val p
浏览 4
提问于2017-08-21
得票数 7
1
回答
星火中
的
蜂箱
分区
和桶形支持不像预期
的
那样工作
、
在
使用
S3
中
的
分区
时,
Spark
逐个列出所有
分区
,这将消耗time.Rather &它应该在元存储表中查找
分区
&应该立即进入
分区
。我尝试以125个partitions.When为例,通过附加
分区
列值来计算
S3
的确切位置&尝试访问它,它在5sec.But中执行,如果我试图让
Spark
计算出
分区
,它将列出所有
分区
,这本身需要超过30秒
如
浏览 1
提问于2017-10-22
得票数 0
回答已采纳
2
回答
spark
.sql.files.maxPartitionBytes不限制写入
分区
的
最大大小
、
、
我正在尝试将拼板数据从另一个
s3
桶复制到我
的
s3
桶中。我希望将每个
分区
的
大小限制为128 MB。我认为默认情况下,
spark
.sql.files.maxPartitionBytes应该设置为128 MB,但是当我在复制后查看
s3
中
的
分区
文件时,我会看到大约226 MB
的
单个
分区
文件。我看了这篇文章,它建议我设置这个星火配置键,以限制
分区
的
最大大小:,但它似乎不起作
浏览 54
提问于2020-06-30
得票数 1
1
回答
在所有
spark
executors和驱动程序
上
执行脚本或小函数,而不
使用
DataFrame或RDD
、
、
、
、
我正在尝试
使用
Spark
Structured Streaming从Kafka topic中读取数据。Kafka Broker启用了SSL。因此,我需要将私有CA证书安装/导入到
spark
驱动程序和执行器
上
的
TrustStore文件中。我不能在主
spark
submit命令之前
使用
单独
的
步骤导入证书,因为
spark
脚本是动态提交
的
(从
s3
下载)。
s3
中
的
浏览 6
提问于2020-07-12
得票数 0
4
回答
Spark
写拼花木板到
S3
最后一个任务永远要用
、
、
我正在编写一个从DataFrame到
S3
的
拼图文件。当我查看
Spark
UI时,我可以看到除了一个快速完成
的
编写阶段(例如199/200)之外
的
所有任务。
如何
优化?谢谢。
浏览 3
提问于2015-08-05
得票数 10
1
回答
使用
Spark
和Alluxio管理
S3
的
文件大小
、
、
、
我
使用
Spark
在Alluxio中写入数据,
使用
UFS作为
S3
,
使用
Hive拼接
分区
表。我在Alluxio中
使用
配置单元
分区
字段
上
的
重
分区
函数来提高写操作
的
效率。这会导致在Alluxio中创建单个文件,即在
S3
中为
分区
组合创建单个对象。虽然Alluxio具有
使用
S3
的
偏移量以字节为单位读取数据
浏览 8
提问于2019-07-02
得票数 1
2
回答
如何
使用
Spark
Streaming更新拼图文件?
、
、
我正在
使用
spark
streaming来创建实时数据管道。我正在从Kafka获取实时数据,并
使用
Spark
处理这些数据。 但是当我用来自
S3
的
新数据更新
S3
上
现有的拼图文件时,它
的
性能就不好了。因为我必须从
S3
中获取现有的
分区
拼图文件,并用来自Kafka
的
新记录替换旧记录,然后在
S3
上
覆盖完整
的
分区
拼图文件。
浏览 18
提问于2019-11-03
得票数 0
3
回答
Spark
是否支持对拼图文件进行
分区
修剪
、
、
、
第二个tag_id - tag_id有200000个唯一值,我主要通过特定
的
partition值访问数据。如果我
使用
以下
Spark
命令:sqlContext.setConf='PLANT01' and tag_id='1000'") 我希望得到一个快速响应,因为它解析到单个
分区</em
浏览 2
提问于2016-05-12
得票数 19
1
回答
使用
saveAsTable将镶嵌数据写入
S3
未完成
、
、
、
、
在EC2机器
上
使用
Spark
2.0.2时,我一直在尝试将表以parquet格式写入带有
分区
的
S3
中,但应用程序似乎从未完成。我可以看到
Spark
已经将文件写入_temporary下
的
S3
存储桶/文件夹,一旦
Spark
saveAsTable作业完成,应用程序就会挂起。查看
s3
可以看到,生成
的
分区
包含文件夹
分区
中
的
数据(
浏览 7
提问于2017-03-04
得票数 1
1
回答
Apache
使用
动态
分区
覆盖和
S3
委员会将Parquet文件写入到
S3
、
、
、
、
以
分区
Parquet文件
的
形式将我
的
星火作业
的
结果写入
S3
。 确保每个作业覆盖它要写入
的
特定
分区
,以确保幂等作业。我正在运行一个pyspark应用程序,并编写到
S3
(实际
上
是一个on 实例),确保
spark
.sql.sources.partitionOverwriteMode设置为dynamic。但是,这意味着我
的
spark
-staging文件是在
S3
中进行
浏览 33
提问于2022-01-17
得票数 2
2
回答
Spark
/EMR能否从
s3
多线程读取数据
、
、
、
由于一些不幸
的
事件序列,我们最终得到了一个存储在
s3
上
的
非常零散
的
数据集。表元数据存储在Glue
上
,数据写入bucketBy,并以拼图格式存储。因此,文件
的
发现不是问题,
spark
分区
的
数量等于存储桶
的
数量,这提供了很好
的
并行性。 当我们在
Spark
/EMR
上
加载这个数据集时,我们最终让每个
spark
分区</e
浏览 2
提问于2020-01-20
得票数 2
2
回答
在
S3
中将每个
分区
数据写入单个文件中
、
我们有这样
的
用例,我们希望按列值对数据帧进行
分区
,然后将每个
分区
写到单个文件中。我做了以下事情来做同样
的
事情: df.rdd.saveAsTextFile("
s3
:
浏览 1
提问于2018-03-14
得票数 1
1
回答
pyspark在输出中写入许多较小
的
文件
、
、
我正在
使用
pyspark处理一些数据,并将输出写入
S3
。我已经在athena中创建了一个表,它将用于查询此数据。数据采用json字符串
的
形式(每行一个),
spark
代码读取文件,根据特定字段对其进行
分区
,并写入
S3
。 .appName("testApp")\
浏览 5
提问于2019-12-16
得票数 2
1
回答
如何
在火花/冰山中启用
分区
存储连接?
、
、
如何
使用
Spark
3.3.0中
的
存储
分区
连接功能?我已经尝试过了,我
的
查询计划仍然显示了昂贵
的
ColumnarToRow和Exchange步骤。我
的
设置如下: 在a.id = b.id AND a.ts = b.ts和a.id = b.id
上
尝试连接表很大,
使用
浏览 15
提问于2022-10-03
得票数 1
回答已采纳
1
回答
Spark
如何
创建从
S3
读取
的
对象
的
分区
?
、
、
、
、
Spark
如何
创建从
S3
读取
的
对象
的
分区
? 我在
S3
中有一个118MB大小
的
对象。我将对象读入胶水动态框架。转换为
spark
数据帧并应用了一些转换。然后将数据写回
S3
。输出文件夹由大小为51MB和39MB
的
两个对象组成。
Spark
如何
决定从
S3
读取
的
数据
的
分区
方案?
浏览 1
提问于2020-06-26
得票数 1
1
回答
spark
如何
在幕后读取数据?
、
、
例如,我有点困惑于
spark
是
如何
从
s3
读取数据
的
。假设要从
s3
读取100 GB
的
数据,而
spark
集群
的
总内存为30 GB。
spark
是否会在触发操作后读取所有100 GB
的
数据,并将最大数量
的
分区
存储在内存中,并将剩余
的
分区
溢出到磁盘?还是只读取可以存储在内存中
的
分区
,对其进行处理,然后读取其余数据?任何到
浏览 2
提问于2021-09-19
得票数 2
0
回答
将pyspark 2.2.0数据帧
分区
写入
S3
并行化
、
、
、
开始
使用
pyspark,遇到了我用代码创建
的
瓶颈: g=d
浏览 4
提问于2017-12-10
得票数 0
点击加载更多
相关
资讯
如何管理Spark的分区
如何在万亿级别规模的数据量上使用 Spark?
如何在万亿级别规模的数据量上使用Spark
使用Ghost错选恢复分区后的恢复方法教程分享
如何在Windows系统中恢复丢失的分区?
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券