腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
0
回答
从
S3
运行
Spark
作业
会
产生
随机
的
输入
大小
值
、
、
、
我刚刚开始使用
S3
作为
输入
,使用EC2作为集群
的
实例来
运行
Spark
作业
。我用
的
是Cloudera,
Spark
2.3.0,Dataframe,Jupyter notebook,python 2。对于我来说,看到
作业
阶段及其任务
的
随机
输入
大小
值
是非常奇怪
的
。所谓
随机
,我
的
意思是这些指标的<em
浏览 1
提问于2018-07-11
得票数 0
1
回答
在电子病历上
的
火花工作突然需要30小时(
从
5个小时)
、
、
我有一个星火
作业
,
运行
在亚马逊EMR集群
的
1主和8个核心。简而言之,
Spark
作业
从
S3
读取一些
S3
文件,将它们转换为RDD,在RDD上执行一些相对复杂
的
联接,最后在
S3
上生成其他.csv文件。
输入
(
S3
文件)没有明显
的
差异。我检查了日志,,在漫长
的
运行
(30小时)中,我可以看到一些关于OutOfMemory错误
的</
浏览 1
提问于2019-04-17
得票数 0
1
回答
通过火花数据帧将数据写入
S3
并按比例-由
s3
503减速错误导致
的
s3
连接问题
、
、
我们正在尝试使用AWS EMR集群在
spark
中读取和写入数据到
S3
。在这个过程中,当我们扩展执行时,我们最终遇到了一些问题。当我们尝试为四分之一
的
数据处理相同
的
作业
时,我们没有注意到这个问题,但当我们将其扩展到并行
运行
多个季度
的
数据时,
随机
地为一个/多个季度
的
数据,我们开始看到
spark
作业
在将数据写入
S3
时失败。然后我们进一步深入了解问题,也就是当我们意识到
s
浏览 0
提问于2018-10-23
得票数 1
5
回答
Parquet谓词下推是否使用
Spark
在
S3
上工作?
、
、
只是想知道Parquet谓词下推是否也适用于
S3
,而不仅仅是HDFS。特别是如果我们使用火花(非EMR)。 进一步
的
解释可能会有帮助,因为它可能涉及了解分布式文件系统。
浏览 8
提问于2016-01-21
得票数 14
回答已采纳
1
回答
是否有可能
运行
多个并行写入
S3
的
Spark
结构化流
作业
?
、
、
、
我正在尝试
运行
多个星火结构化流
作业
(在EMR上),这些
作业
从
卡夫卡主题中读取并写入
S3
中
的
不同路径(每个路径在各自
的
任务中执行)。我已经将我
的
集群配置为使用。下面是我试图
运行
的
代码片段: .readStream \ .option("kafka.bootstrap.servers()
浏览 2
提问于2020-06-15
得票数 1
1
回答
通过PySpark直接
从
DWH处理数据是一种好方法吗?
、
我有两个DWH,我需要通过PySpark处理他们
的
数据,
作业
将在AWS EMR上执行。我想知道通过PySpark直接
从
DWH处理数据是可以
的
,还是让ETL
从
DWH到
S3
,然后
运行
将使用
S3
数据
的
Spark
作业
会
更好。
浏览 39
提问于2021-08-31
得票数 0
1
回答
为什么火花提交
作业
使进程在集群(EMR)主节点上
运行
?
、
、
我通过AWS lambda函数向Livy提交了一个火花
作业
。该
作业
运行
到驱动程序
的
末尾,但随后不会关闭。如果将
spark
.stop()或sc.stop()添加到驱动程序
的
末尾,火花
作业
将在纱线资源管理器上完成,Livy将报告成功。但是,在主节点上仍然有一个livy进程,它占用大约1.5Gb
的
内存。如果提交了许多
作业
,这将最终使用并保存所有主节点内存。 在主节点上收集这些记录,然后使
浏览 0
提问于2019-04-09
得票数 0
2
回答
如何在电子病历上调优火花
作业
,在
S3
上快速写大数据
、
、
、
我有一个火花
作业
,在两个数据帧之间做外部连接。第一个数据帧
的
大小
为260 GB,文件格式为文本文件,分为2200个文件,第二个数据帧
的
大小
为2GB。然后,将大约260GB
的
数据帧输出写入
S3
需要很长时间,在此之后,我取消了2个多小时,因为我在EMR上已经做了很大
的
更改。 真正
的
原因是分区.And占用了大部分时
浏览 3
提问于2017-10-15
得票数 20
1
回答
为什么一个操作需要多个
作业
才能在
spark
- scala中完成
、
我在
spark
-scala中
的
一个数据帧上做了一个旋转操作。但对于单轴,它需要多个
作业
才能完成(如下图所示)。 可能
的
原因是什么? ? 这是一个相当普遍
的
问题,因为我在其他动作中也经历了同样
的
情况。
浏览 14
提问于2020-11-25
得票数 1
2
回答
Spark
RDD.saveAsTextFile正在向
S3
写入空文件
、
我正在尝试使用
Spark
1.6 (
spark
-1.6.0-bin-hadoop2.4.tgz)执行一个map-reduce
作业
,该
作业
从
S3
读取
输入
并向其中写入输出。我使用相同
的
存储桶来输出文件:outputRDD.saveAsTextFile(s3n://bucket/path/to/output/) 当我
的
输入
非常小(< 100条记录)时,这似乎可
浏览 1
提问于2016-01-26
得票数 2
4
回答
AWS Glue
作业
未写入
S3
、
我一直在尝试使用Glue,但还没有让它在现有的
S3
存储桶中成功地创建一个新表。
作业
将在没有错误
的
情况下执行,但在
S3
中永远不会有任何输出。下面是自动生成
的
代码:connection_type = "
s3
", connection_options = {"path": "
s3
:
浏览 1
提问于2017-09-21
得票数 6
1
回答
spark
创建
的
分区太多
、
我有3个Cassandra节点集群,1个种子节点,1个
spark
主节点和3个
从
节点,8 GB内存和2个内核。下面是我
的
spark
作业
的
输入
当我使用这个配置集
运行
时,我看到创建了大约768个分区,大约89.1MB
的
数据我使用
的
是Cassandra
spark
connector版本1.4
浏览 0
提问于2015-09-27
得票数 1
2
回答
如何克服AWS胶
作业
中
的
“设备上无空间”错误
、
、
我在PySpark中使用了AWS
作业
从
超过10 TB
的
s3
拼板文件中读取数据,但是
作业
在执行
Spark
查询时失败了。所以我们试图增加工人
的
数量。是否有方法将星火本地临时目录配置为
s3
而不是本地文件系统?我曾尝试在
Spark
会话构建器中配置该属性,但仍然使用本地tmp目录
浏览 1
提问于2020-12-28
得票数 10
1
回答
Spark
Dataframe挂起保存
、
、
、
、
我一直在努力找出我
的
spark
作业
出了什么问题,因为我试图将它写到
S3
或HDFS (大约100G
的
拼图格式
的
数据)。导致挂起
的
代码行:我已经尝试了覆盖以及附加模式,并尝试保存到HDFS和
S3
,但无论如何
作业
将挂起在Hadoop资源管理器GUI中,它将
浏览 2
提问于2018-01-12
得票数 6
回答已采纳
2
回答
spark
的
随机
读和
随机
写之间
的
区别是什么?
、
我需要
运行
一个有大量数据
的
spark
程序。我正在尝试优化
spark
程序,并通过
spark
UI工作,试图减少Shuffle部分。我在互联网上搜索过,但找不到关于它们
的
具体细节,所以想看看是否有人可以在这里解释它
浏览 3
提问于2016-03-06
得票数 13
1
回答
AWS粘合和重复数据删除增量CSV文件
、
每天我都想对这些数据
运行
一个file2,并将其写到不同
的
S3
位置,这样我就可以用雅典娜查询它,而不会出现重复
的
行。本质上,我只想查询聚合数据
的
最新状态(这只是最近提交到
S3
的
文件
的
内容)。我认为书签不会起作用,因为增量交付包含以前文件中
的
数据,因此
会
产生
重复
的
数据。如果我在源存储桶中
的
所有文件上
运行
,我知道我可以转换为数据帧并删除重复项: <em
浏览 18
提问于2018-07-25
得票数 1
1
回答
Mesos上
的
Apache
Spark
:初始
作业
未接受任何资源
、
、
、
我使用Apache Mesos在集群模式下
运行
Apache
Spark
。但是,当我启动
Spark
-Shell
运行
一个简单
的
测试命令(sc.parallelize(0 to 10,8).count)时,我收到以下警告消息:如果我查看Mesos WebUI,我可以看到
浏览 0
提问于2016-03-10
得票数 3
1
回答
如何在AWS Glue PySpark中
运行
并行线程?
、
、
、
我有一个火花
作业
,它将从具有相同转换
的
多个表中提取数据。基本上是一个for循环,它遍历一个表列表,查询目录表,添加时间戳,然后插入Redshift (下面的例子)。) glueContext = GlueContext(SparkContext.ge
浏览 4
提问于2020-07-03
得票数 5
回答已采纳
1
回答
如何在非阻塞模式下启动
spark
(使用thrift服务器),以便hive可以更新数据并将数据重新加载到
spark
中(查看表格)
、
、
、
我们确实遇到了表查找
的
问题。我们需要同时
从
hive和
spark
(使用thrift服务器)访问表格。然而,我们
的
问题是在
spark
上
运行
spark
和thrift服务器导致一个表
的
查找。我们在Amazon AWS EMR集群上
运行
,其中包含Hive、
Spark
和thrift Server2。 我们希望使用hive更新
s3
存储,并定期在后台将这些聚合数据加载到
spark
中。同时,<em
浏览 2
提问于2015-12-22
得票数 0
1
回答
没有
输入
数据集
的
火花
作业
、
我想写一个火花
作业
,
产生
数百万个
随机
数作为输出。这不需要
输入
数据集,但最好具有集群
的
并行性。我知道
Spark
在RDD上
运行
,RDD是定义上
的
数据集,我只是想知道是否有一种方法可以强迫许多执行者在没有RDD
的
情况下
运行
特定
的
函数,或者创建一个模拟
的
RDD。
浏览 2
提问于2016-03-16
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
通过优化S3读取来提高效率和减少运行时间
Netflix 的数据基础设施如何兼顾效率和成本?
万亿级数据规模下的倾斜调优
Spark Streaming和Kafka集成深入浅出
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券