腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
对于
YARN
中
的单个
队列
,如何将state=RUNNING
中
spark
应用的数量限制为1?
、
、
通常,我将我的
spark
作业
提交给
yarn
,我有一个选项是--
yarn
_queue,它告诉它进入哪个
yarn
队列
。 但是,这些
作业
似乎
在
同一
队列
中
并行
运行
。有时,一个
spark
作业
的结果是下一个
spark
作业
的输入。如何在同一
队列
中
按顺序而不是并行
运行
我的
spark<
浏览 1
提问于2017-03-03
得票数 3
1
回答
spark
作业
可以有多种配置吗?
、
、
、
假设我的PC如下所示4 5 6现在假设我有两个
spark
作业
A和B。一个
作业
生成数据C,B将其作为输入。为了获得C语言,我需要像这样的集群集群2:主机: 4,从机:5 6对于B
作业
,我需要这样的集群: 集群4:主机: 4,从机:1同样最重要的是,即使像这样的配置是可能的,那么编写这样的
spark
应用程序的最佳实践是什么,这样我们就不需要为
作业
A和B单独使用
spark
应
浏览 0
提问于2017-04-23
得票数 0
1
回答
我们可以根据hadoop应用程序的类型(MR,
SPARK
)分配到公平调度程序
队列
中
吗?
、
、
公平调度器是否支持基于应用程序类型的
队列
分配?就像所有的火花工作一样,
Spark
_Queue和MR_Queue也是如此。
浏览 3
提问于2015-03-09
得票数 1
回答已采纳
1
回答
覆盖
Spark
应用程序资源需求
我目前正在建立一个
Spark
集群,将由几组客户使用,我对
Spark
中
的资源分配方法有点困惑。似乎
Spark
集群的治理模型有点欠缺,因为每个应用程序都可以指定自己的资源需求,从而有效地消耗整个集群并阻塞其他应用程序。我知道我可以使用
spark
.deploy.defaultcores来避免应用程序意外地请求所有可用内核的情况,但这仍然会导致应用程序指定的
spark
.cores.max远远高于其实际应该获得的值。这在共享集群
中
是一个真正的问题... 有什么方法可以覆盖单个应用
浏览 0
提问于2016-12-01
得票数 1
1
回答
在
DataProc上
运行
Spark
时如何排队新
作业
如何能够向Google (PySpark)提交多个
作业
,并将不适合当前执行器的
作业
排队?只有提交
作业
才不适用于排队,这里是下列任何
作业
的输出: ...Attempting port 4041 为此,纱线应采用“
队列
”参数。但是,我找不到与dataproc一起使用它的文档.?
浏览 0
提问于2016-04-08
得票数 2
回答已采纳
1
回答
在
运行
Spark
作业
时,
YARN
不会基于公平份额抢占资源
、
、
、
我
在
重新平衡
YARN
队列
上的Apache
Spark
作业
资源时遇到了问题。 对于测试,我将Hadoop2.6(也尝试了2.7 )配置为
在
伪分布式模式下
运行
,并在MacOS上使用本地HDFS。当使用Hadoop MapReduce
作业
的基本配置进行测试时,公平调度器按预期工作:当集群的资源超过某个最大值时,将计算公平份额,并根据这些计算抢占和平衡不同
队列
中
作业
的资源。对
Spark
<
浏览 70
提问于2015-10-12
得票数 20
2
回答
如何配置
yarn
集群实现应用程序的并行执行?
、
、
、
、
当我
在
yarn
集群上
运行
spark
作业
时,应用程序
在
队列
中
运行
。那么,如何在多个应用程序
中
并行
运行
呢?
浏览 0
提问于2018-08-31
得票数 0
2
回答
纱线上的火花:如何防止多个火花
作业
被调度
、
运行
多个
作业
会导致缓存空间激增。 理想情况下,我想看看是否有一个配置可以确保任何时候
在
Yarn
上只
运行
一个
作业
。
浏览 2
提问于2016-04-13
得票数 1
回答已采纳
1
回答
如何将
YARN
配置为分配最小数量的容器?
、
我
在
一个纱线集群上并行
运行
多个
Spark
作业
。我发现
YARN
并行启动了许多这样的
作业
,但只为驱动程序分配了一个容器,而没有分配执行器。这意味着这些
Spark
作业
实际上处于闲置状态,等待executor加入,此时可以通过将executor分配给其他
作业
来更好地利用这种处理能力。我希望将
YARN
配置为至少为一个
作业
分配两个容器(一个驱动程序+一个执行器),如果不可用,则将其保留在
队列
<
浏览 0
提问于2020-05-22
得票数 1
2
回答
避免对
spark
微批进行排队
、
我已经创建了
spark
应用程序,它从Apache flume获取输入数据。我将
spark
批处理间隔设置为4分钟,这样
spark
将每隔4分钟处理一次数据。但是我有一些昂贵的
spark
批处理,这需要相当多的时间(比如30分钟),所以在这段时间内,大约7个
spark
批处理将在
队列
中等待,一旦昂贵的批处理执行完成,它将一个接一个地开始处理。如果我的
spark
批处理正在执行,并且耗时超过4分钟,我不想在
队列
中
添加下一个
spark</em
浏览 1
提问于2019-09-28
得票数 3
1
回答
在
Spark
程序
中
访问Oozie配置
、
、
我
在
.bash_profile中保存了一个环境变量。我正在尝试使用Scala
中
的sys.env()方法通过
Spark
程序访问它。当我没有Oozie调度时,我能够正确地访问
Spark
中
的环境变量。workflow.xml: <start to='
spark
-n
浏览 1
提问于2020-01-14
得票数 0
1
回答
Hadoop调度器与oozie
、
、
在生产环境
中
通常使用哪一个?
浏览 8
提问于2018-08-27
得票数 0
1
回答
当指定纱线节点标签时,纱线应用程序无法启动
、
、
、
我试图使用来标记工作节点,但是当我
在
纱线上
运行
应用程序(
Spark
或简单的纱线应用程序)时,这些应用程序无法启动。使用
Spark
时,当指定--conf
spark
.
yarn
.am.nodeLabelExpression="my-label"时,
作业
无法启动(
在
Submitted application [...]上阻塞/
spark
/examples/jars/
spar
浏览 0
提问于2018-03-07
得票数 7
回答已采纳
1
回答
Spark
Yarn
在
队列
中
运行
1000个
作业
、
、
我正在尝试
在
Yarn
集群
中
安排1000个
作业
。我想
运行
超过1000个工作每天
在
同一时间和纱线来管理资源。对于来自hdfs的1000个不同类别的文件,我尝试从python创建
spark
提交命令并执行。如何在星火纱线集群
中
调度1000个
作业
?我甚至尝试过oozie
作业
调度框架和
spark
,它在HDP上并没有像预期的那样工作。
浏览 10
提问于2016-08-28
得票数 1
1
回答
混淆使用
Yarn
资源管理器
、
、
、
我正尝试
在
Amazon AWS
中
运行
一个简单的pyspark
作业
,它被配置为通过
spark
-default.conf文件使用
Yarn
。我对
Yarn
部署代码有点困惑。我看到一些示例代码如下所示: conf = SparkConf()conf.setAppName('
spark
-
yarn
') sc = SparkCont
浏览 3
提问于2020-01-27
得票数 1
回答已采纳
1
回答
在
纱线上
运行
火花时应该采用哪种模式?
、
、
、
我知道
在
纱线集群上
运行
星火应用有两种模式。
在
纱线-集群模式
中
,驱动程序
在
应用程序母版(
在
纱线集群内)
中
运行
。
在
纱线-客户端模式
中
,它在提交
作业
的客户端节点中
运行
。
浏览 2
提问于2016-05-07
得票数 2
回答已采纳
3
回答
为什么当我启动它时,我的pyspark就像在纱线
中
接受的那样挂起来了?
、
、
、
我刚刚在Linux
中
创建了一个新的AWS实例。而且,我在上面安装了pyspark。它有
spark
1.6。dd/mm/YY HH:MM:SS INFO
yarn
.Client: Application report for application_XXXXXXXXXXX_XXXX所以,我检查了一下
yarn
,看看是否还有其
浏览 0
提问于2017-03-18
得票数 2
3
回答
如何设置火花壳的纱线
队列
?
、
我
在
spark
shell
中
执行一些
spark
(scala) sql代码。我想知道我正在使用哪个
队列
,如果可能的话,我想知道我正在使用多少内存和执行器,以及如何优化它?
浏览 22
提问于2018-12-29
得票数 5
回答已采纳
1
回答
如何在启动新
作业
之前了解
spark
作业
是否已完成
我想通过
yarn
并行
运行
一组
spark
作业
,然后等待它们全部完成,然后再启动另一组
作业
。我如何才能知道我的第一组
作业
何时完成?谢谢。
浏览 10
提问于2018-08-21
得票数 1
回答已采纳
1
回答
使用Direct Kafka API
运行
spark
流媒体应用所需的最佳资源是什么?
、
、
、
我使用直接的Kafka API以1分钟的批处理间隔
运行
我的
spark
流媒体应用程序,并在我的应用程序代码中使用Pandas和Pyspark。我已经提供了如下参数的
spark
-submit
作业
,--deploy-mode cluster--total-executor-cores") \ .config("
spark
.streaming.kafka.maxRatePerPartition"
浏览 14
提问于2017-08-28
得票数 1
点击加载更多
相关
资讯
Hadoop跑满状态下的Yarn资源管理谈
Uber是如何低成本构建开源大数据平台的?
云原生架构下复杂工作负载混合调度的思考与实践
Zzreal的大数据笔记-SparkDay03
Spark实战(5)_Spark Core核心编程
热门
标签
更多标签
云服务器
ICP备案
实时音视频
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券