腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
我们
如何
预先确定
Spark
作业
的
数量
?
根据我
的
经验,
Spark
驱动程序可以为给定
的
应用程序运行多个
作业
,这些
作业
被分阶段分解为每个执行器
的
任务。 我似乎不能理解
的
是,什么时候以及为什么一个sparkcontext会运行多个
作业
?
浏览 5
提问于2017-08-28
得票数 0
2
回答
Submitted在提交员工节点/
作业
IOException后无休止地重新提交
、
、
、
在
我们
的
应用程序中,
我们
有一个内置
的
火花独立集群(Version2.4.3),它通过submit主URL接收主数据引擎加载程序提交
的
作业
。 在不同
的
VM上有3个工作从节点。有趣
的
是,由于一些IOException,我张贴在一个非常有限和神秘
的
格式,以限制系统内部。主程序假定它需要一次又一次地将相同
的
作业
/应用程序提交给,相同
的
工作人员(10次,数千次)。工人应用程序
浏览 1
提问于2020-04-28
得票数 0
回答已采纳
2
回答
星火
如何
独立实施资源分配
我一直在阅读
Spark
的
源代码,但我仍然无法理解
Spark
是
如何
独立实现资源隔离和分配
的
。例如,Mesos使用LXC或Docker来实现容器,以限制资源。那么,
如何
独立地实现这一点。例如,我在一个执行器中运行了10个线程,但是
Spark
只给了执行器一个内核,那么
如何
保证这10个线程只在一个cpu内核上运行。 经过下面的测试代码,发现火花独立资源分配在某种程度上是假
的
。我只有一个执行者(执行者),只给执行者一个核心(机器总共有6个核心)
浏览 10
提问于2016-11-26
得票数 3
回答已采纳
1
回答
如何
设置apache
spark
应用程序
的
执行参数
我们
设置了一个多节点集群,用于测试具有4个节点
的
Spark
应用程序。每个节点具有250 48,48个核心。在一个节点上运行master,在3个节点上运行从节点。
我们
已经使用scala开发了一个
spark
应用程序。
我们
使用
spark
-submit选项来运行
作业
。现在,这是
我们
的
观点,需要更多
的
澄清才能继续进行。 问题1:运行
spark
作业
的
最佳选项
浏览 1
提问于2017-05-02
得票数 0
2
回答
使用Cassandra
的
Spark
任务
、
、
、
我是
Spark
和Cassandra
的
新手一种观察是,
spark
作业
的
任务
数量
增加了w.r.t数据增长。正因为如此,
我们
在获取数据时面临着大量
的
延迟。应该考虑什么来提高Cassandra在
Spark
浏览 1
提问于2015-09-08
得票数 2
1
回答
在EMR中运行并行
作业
时触发提交配置
、
、
、
我们
目前正在使用Datapipeline中
的
HadoopActivity任务在EMR集群上运行并行
Spark
作业
。默认情况下,较新版本
的
EMR集群将
spark
dynamic allocation设置为true,这将根据负载增加/减少所需
的
执行器
数量
。那么,
我们
是否需要在
spark
-submit中设置任何其他属性,例如内核
数量
、执行器内存等,或者最好是让EMR集群动态处理它?
浏览 2
提问于2017-11-27
得票数 1
1
回答
Apache中
的
MultipleOutputs 0.20.203
可能重复: 干杯!
浏览 2
提问于2011-06-14
得票数 1
1
回答
是什么决定了
spark
应用程序中
的
作业
数量
、
以前我
的
理解是,一个动作会在
spark
应用程序中创建一个职位。但是让
我们
看看下面的场景,其中我只是使用.range()方法创建一个数据帧因为我
的
spark
.default.parallelism是10,所以结果数据帧是10个分区现在我只是在数据帧上执行.show()和.count()操作df.count() 现在,当我检查了
spark
历史记录时,我可以看到.show()
的
3个
作业</
浏览 1
提问于2021-03-24
得票数 0
2
回答
如何
控制
Spark
job在写入时创建
的
输出部品文件
的
数量
?
、
、
、
我有几个
Spark
作业
,每天处理数千个文件。文件大小可能从MB到GB不等。/path/in/hdfs"); OR
Spark
job在最终输出目录中创建了大量
的
小零件文件。据我所知,
Spark<
浏览 4
提问于2015-07-06
得票数 2
回答已采纳
2
回答
对于YARN中
的
单个队列,
如何
将state=RUNNING中
spark
应用
的
数量
限制为1?
、
、
我有很多火种
的
工作。通常,我将我
的
spark
作业
提交给yarn,我有一个选项是--yarn_queue,它告诉它进入哪个yarn队列。我已经在页面上找到了一个容量调度器。
浏览 1
提问于2017-03-03
得票数 3
1
回答
是什么决定了
Spark
中操作
的
映射器和减法器
的
数量
我正在阅读,这篇文章谈到了基于映射器和reducers任务
的
数量
生成
的
文件
数量
。你能帮帮我吗。
浏览 2
提问于2018-11-16
得票数 0
1
回答
"
spark
.sql.shuffle.partitions“配置是否影响非sql洗牌?
、
、
、
在星火
作业
中,
我们
没有太多
的
SQL (这是我知道
的
问题,但目前这是一个事实)。我想优化
我们
的
星火洗牌分区
的
大小和
数量
,以优化
我们
的
火花使用。我在很多资料中看到,设置
spark
.sql.shuffle.partitions是一个很好
的
选择。但是,如果
我们
几乎不使用
spark
,它会有什么效果吗?
浏览 3
提问于2022-04-18
得票数 1
回答已采纳
1
回答
集成火花和弹簧引导
、
、
在与记录器依赖项进行斗争之后,我终于用常用
的
"java -jar“命令成功地启动了spring引导应用程序。编译后
的
Jar包含mongodb库:825351 Mon Jul 30 14:42:22 CEST 2018 BOOT-INF/lib/mongo-
spark
-connector_2.11有没有人知道
如何
让火花看到它需要
的
罐子?编辑: 按照@Ramdev
浏览 0
提问于2018-09-24
得票数 0
回答已采纳
1
回答
spark
历史记录服务器不显示
作业
或阶段
、
我们
正在尝试使用
spark
历史服务器来进一步改进
我们
的
spark
工作。
spark
作业
正确地将事件日志写入HDFS,并且
spark
历史服务器也可以访问此事件日志:
我们
确实在
spark
历史服务器
作业
列表中看到了该
作业
,但除了环境变量和执行器之外,所有内容都是空
的
……关于
如何
让
spark
历史服务器显示所有内容(例如,
我们</e
浏览 2
提问于2015-11-23
得票数 0
2
回答
如何
克服AWS胶
作业
中
的
“设备上无空间”错误
、
、
我在PySpark中使用了AWS
作业
从超过10 TB
的
s3拼板文件中读取数据,但是
作业
在执行
Spark
查询时失败了。所以
我们
试图增加工人
的
数量
。是否有方法将星火本地临时目录配置为s3而不是本地文件系统?或者
我们
可以在胶水工人上安装EBS音量。我曾尝试在
Spark
会话构建
浏览 1
提问于2020-12-28
得票数 10
1
回答
资源匮乏下Kubernetes上
的
Spark
作业
无限期等待
SPARK
_MIN_EXECUTORS
、
我正在使用
Spark
3.0.1,并在Kubernetes上进行项目
spark
部署,其中Kubernetes代理
spark
作业
的
集群管理器,
spark
使用客户端模式提交
作业
。如果群集没有足够
的
资源(CPU/内存)用于最小
数量
的
执行器,则执行器将无限期地处于挂起状态,直到资源释放。假设集群配置为: total Memory=204Gifree memory= 4Gi <e
浏览 7
提问于2021-02-05
得票数 0
3
回答
如何
设置火花壳
的
纱线队列?
、
我在
spark
shell中执行一些
spark
(scala) sql代码。我想知道我正在使用哪个队列,如果可能的话,我想知道我正在使用多少内存和执行器,以及
如何
优化它?
浏览 22
提问于2018-12-29
得票数 5
回答已采纳
2
回答
是否有限制可以使用
的
容器
数量
的
Hive on Hue (CDH 5.9.3)
的
配置设置?
、
、
这是
我们
组中
的
一个普遍问题,
我们
的
Hive查询经常扩展到消耗CDH集群上大多数可用
的
纱线执行器和内存。虽然根本
的
问题在于表中分区
的
数量
和连接
的
复杂性,但
我们
不能自由地重建这些表。
我们
可以通过配置
spark
.dynamicAllocation.maxExecutors和
spark
.executor.memory来控制
Spark
中
的
浏览 14
提问于2017-10-12
得票数 3
回答已采纳
1
回答
Apache Flink -为多租户应用程序多次运行相同
的
任务
、
、
、
、
我们
有一个多租户应用程序,其中维护每个租户
的
消息队列。
我们
已经实现了一个Flink
作业
来处理消息队列中
的
流数据。基本上,每个消息队列都是Flink
作业
中
的
一个源。这是建议
的
做法吗?还是可以根据租户
的
数量
多次运行同一个
作业
(使用一个源)?
我们
预计每个租户都会产生不同
数量
的
数据。在多任务方法中会有什么可伸缩性
的
优势吗? 方法1:具有
浏览 2
提问于2020-07-03
得票数 0
回答已采纳
1
回答
AWS Glue -
作业
监视:
作业
执行、活动执行器和最大需要
的
执行器未显示
、
、
、
、
我在AWS Glue中设置了一个ETL
作业
,设置如下: Glue v.3.0、Pythonv.3、Sparkv.3.1和支持10个工人和
作业
度量
的
工人类型G.1X。当我查看
作业
完成后
的
作业
指标时,我在
作业
执行中看到:活动执行器、已完成阶段&只显示已完成阶段
的
数量
的
最大需要
的
执行器。火花会话已经根据下面的代码设置。为什么我不能看到活动执行者
的
数量
和最大需要<
浏览 5
提问于2022-03-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何监控和调试Spark作业,有哪些常用的工具和技术?
Spark实战(6)_spark-sql-e-f-i命令的整合和spark-sql日常作业开发流程总结
如何管理Spark的分区
高性能Spark作业基础:你必须知道的调优原则及建议
军人想用计算机做我们的家庭作业
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券