Spark Yarn在队列中运行1000个作业

文章/答案/技术大牛

发布

2回答

对于YARN中的单个队列，如何将state=RUNNING中spark应用的数量限制为1？

、、

通常，我将我的spark作业提交给yarn，我有一个选项是--yarn_queue，它告诉它进入哪个yarn队列。但是，这些作业似乎在同一队列中并行运行。有时，一个spark作业的结果是下一个spark作业的输入。如何在同一队列中按顺序而不是并行运行我的spark<

浏览 1提问于2017-03-03得票数 3

1回答

spark作业可以有多种配置吗？

、、、

假设我的PC如下所示4 5 6现在假设我有两个spark作业A和B。一个作业生成数据C，B将其作为输入。为了获得C语言，我需要像这样的集群集群2:主机: 4，从机:5 6对于B作业，我需要这样的集群：集群4:主机: 4，从机:1同样最重要的是，即使像这样的配置是可能的，那么编写这样的spark应用程序的最佳实践是什么，这样我们就不需要为作业A和B单独使用spark应

浏览 0提问于2017-04-23得票数 0

1回答

我们可以根据hadoop应用程序的类型(MR，SPARK)分配到公平调度程序队列中吗？

、、

公平调度器是否支持基于应用程序类型的队列分配？就像所有的火花工作一样，Spark_Queue和MR_Queue也是如此。

浏览 3提问于2015-03-09得票数 1

回答已采纳

1回答

我目前正在建立一个Spark集群，将由几组客户使用，我对Spark中的资源分配方法有点困惑。似乎Spark集群的治理模型有点欠缺，因为每个应用程序都可以指定自己的资源需求，从而有效地消耗整个集群并阻塞其他应用程序。我知道我可以使用spark.deploy.defaultcores来避免应用程序意外地请求所有可用内核的情况，但这仍然会导致应用程序指定的spark.cores.max远远高于其实际应该获得的值。这在共享集群中是一个真正的问题... 有什么方法可以覆盖单个应用

浏览 0提问于2016-12-01得票数 1

1回答

在DataProc上运行Spark时如何排队新作业

如何能够向Google (PySpark)提交多个作业，并将不适合当前执行器的作业排队？只有提交作业才不适用于排队，这里是下列任何作业的输出： ...Attempting port 4041 为此，纱线应采用“队列”参数。但是，我找不到与dataproc一起使用它的文档.？

浏览 0提问于2016-04-08得票数 2

回答已采纳

1回答

在运行Spark作业时，YARN不会基于公平份额抢占资源

、、、

我在重新平衡YARN 队列上的Apache Spark作业资源时遇到了问题。对于测试，我将Hadoop2.6(也尝试了2.7 )配置为在伪分布式模式下运行，并在MacOS上使用本地HDFS。当使用Hadoop MapReduce作业的基本配置进行测试时，公平调度器按预期工作:当集群的资源超过某个最大值时，将计算公平份额，并根据这些计算抢占和平衡不同队列中作业的资源。对Spark<

浏览 70提问于2015-10-12得票数 20

2回答

如何配置yarn集群实现应用程序的并行执行？

、、、、

当我在yarn集群上运行spark作业时，应用程序在队列中运行。那么，如何在多个应用程序中并行运行呢？

浏览 0提问于2018-08-31得票数 0

2回答

纱线上的火花:如何防止多个火花作业被调度

、

运行多个作业会导致缓存空间激增。理想情况下，我想看看是否有一个配置可以确保任何时候在Yarn上只运行一个作业。

浏览 2提问于2016-04-13得票数 1

回答已采纳

1回答

如何将YARN配置为分配最小数量的容器？

、

我在一个纱线集群上并行运行多个Spark作业。我发现YARN并行启动了许多这样的作业，但只为驱动程序分配了一个容器，而没有分配执行器。这意味着这些Spark作业实际上处于闲置状态，等待executor加入，此时可以通过将executor分配给其他作业来更好地利用这种处理能力。我希望将YARN配置为至少为一个作业分配两个容器(一个驱动程序+一个执行器)，如果不可用，则将其保留在队列<

浏览 0提问于2020-05-22得票数 1

2回答

避免对spark微批进行排队

、

我已经创建了spark应用程序，它从Apache flume获取输入数据。我将spark批处理间隔设置为4分钟，这样spark将每隔4分钟处理一次数据。但是我有一些昂贵的spark批处理，这需要相当多的时间(比如30分钟)，所以在这段时间内，大约7个spark批处理将在队列中等待，一旦昂贵的批处理执行完成，它将一个接一个地开始处理。如果我的spark批处理正在执行，并且耗时超过4分钟，我不想在队列中添加下一个spark</em

浏览 1提问于2019-09-28得票数 3

1回答

在Spark程序中访问Oozie配置

、、

我在.bash_profile中保存了一个环境变量。我正在尝试使用Scala中的sys.env()方法通过Spark程序访问它。当我没有Oozie调度时，我能够正确地访问Spark中的环境变量。workflow.xml： <start to='spark-n

浏览 1提问于2020-01-14得票数 0

1回答

Hadoop调度器与oozie

、、

在生产环境中通常使用哪一个？

浏览 8提问于2018-08-27得票数 0

1回答

当指定纱线节点标签时，纱线应用程序无法启动

、、、

我试图使用来标记工作节点，但是当我在纱线上运行应用程序(Spark或简单的纱线应用程序)时，这些应用程序无法启动。使用Spark时，当指定--conf spark.yarn.am.nodeLabelExpression="my-label"时，作业无法启动(在Submitted application [...]上阻塞/spark/examples/jars/spar

浏览 0提问于2018-03-07得票数 7

回答已采纳

1回答

、、

我正在尝试在Yarn集群中安排1000个作业。我想运行超过1000个工作每天在同一时间和纱线来管理资源。对于来自hdfs的1000个不同类别的文件，我尝试从python创建spark提交命令并执行。如何在星火纱线集群中调度1000个作业？我甚至尝试过oozie作业调度框架和spark，它在HDP上并没有像预期的那样工作。

浏览 10提问于2016-08-28得票数 1

1回答

混淆使用Yarn资源管理器

、、、

我正尝试在Amazon AWS中运行一个简单的pyspark作业，它被配置为通过spark-default.conf文件使用Yarn。我对Yarn部署代码有点困惑。我看到一些示例代码如下所示： conf = SparkConf()conf.setAppName('spark-yarn') sc = SparkCont

浏览 3提问于2020-01-27得票数 1

回答已采纳

1回答

在纱线上运行火花时应该采用哪种模式？

、、、

我知道在纱线集群上运行星火应用有两种模式。在纱线-集群模式中，驱动程序在应用程序母版(在纱线集群内)中运行。在纱线-客户端模式中，它在提交作业的客户端节点中运行。

浏览 2提问于2016-05-07得票数 2

回答已采纳

3回答

为什么当我启动它时，我的pyspark就像在纱线中接受的那样挂起来了？

、、、

我刚刚在Linux中创建了一个新的AWS实例。而且，我在上面安装了pyspark。它有spark 1.6。dd/mm/YY HH:MM:SS INFO yarn.Client: Application report for application_XXXXXXXXXXX_XXXX所以，我检查了一下yarn，看看是否还有其

浏览 0提问于2017-03-18得票数 2

3回答

如何设置火花壳的纱线队列？

、

我在spark shell中执行一些spark(scala) sql代码。我想知道我正在使用哪个队列，如果可能的话，我想知道我正在使用多少内存和执行器，以及如何优化它？

浏览 22提问于2018-12-29得票数 5

回答已采纳

1回答

如何在启动新作业之前了解spark作业是否已完成

我想通过yarn并行运行一组spark作业，然后等待它们全部完成，然后再启动另一组作业。我如何才能知道我的第一组作业何时完成？谢谢。

浏览 10提问于2018-08-21得票数 1

回答已采纳

1回答

使用Direct Kafka API运行spark流媒体应用所需的最佳资源是什么？

、、、

我使用直接的Kafka API以1分钟的批处理间隔运行我的spark流媒体应用程序，并在我的应用程序代码中使用Pandas和Pyspark。我已经提供了如下参数的spark-submit作业，--deploy-mode cluster--total-executor-cores") \ .config("spark.streaming.kafka.maxRatePerPartition"

浏览 14提问于2017-08-28得票数 1

点击加载更多

对于YARN中的单个队列，如何将state=RUNNING中spark应用的数量限制为1？

spark作业可以有多种配置吗？

我们可以根据hadoop应用程序的类型(MR，SPARK)分配到公平调度程序队列中吗？

覆盖Spark应用程序资源需求

在DataProc上运行Spark时如何排队新作业

在运行Spark作业时，YARN不会基于公平份额抢占资源

如何配置yarn集群实现应用程序的并行执行？

纱线上的火花:如何防止多个火花作业被调度

如何将YARN配置为分配最小数量的容器？

避免对spark微批进行排队

在Spark程序中访问Oozie配置

Hadoop调度器与oozie

当指定纱线节点标签时，纱线应用程序无法启动