如何启动并行spark作业？

启动并行Spark作业可以通过以下步骤实现：

配置Spark集群：确保你已经正确地配置了一个Spark集群，包括Master节点和多个Worker节点。你可以使用腾讯云的Tencent Spark服务来创建和管理Spark集群。Tencent Spark是腾讯云提供的一种弹性、高可用的Spark集群服务，可以轻松地启动和管理Spark作业。
编写Spark应用程序：使用你熟悉的编程语言（如Scala、Java或Python）编写Spark应用程序。Spark提供了丰富的API和库，可以用于数据处理、机器学习、图计算等各种任务。
配置并行度：在启动Spark作业之前，你可以通过设置并行度来控制作业的并行执行程度。并行度决定了作业在集群中的并行执行任务数。你可以根据数据量、集群规模和作业复杂度来调整并行度。
提交作业：使用Spark提供的命令行工具或API，将你的应用程序提交到Spark集群。在提交作业时，你可以指定作业的名称、资源需求、运行参数等。
监控作业：一旦作业提交成功，你可以通过Spark的监控工具来实时监控作业的执行情况。监控工具可以提供作业的运行状态、资源使用情况、任务进度等信息，帮助你及时发现和解决问题。
分析结果：作业执行完成后，你可以通过Spark提供的API或工具来分析和处理作业的结果。Spark支持将结果存储到各种数据源中，如HDFS、关系型数据库、NoSQL数据库等。

总结起来，启动并行Spark作业需要配置Spark集群、编写应用程序、配置并行度、提交作业、监控作业和分析结果。腾讯云的Tencent Spark服务可以帮助你轻松地完成这些步骤，并提供丰富的产品和工具来支持Spark作业的开发和管理。你可以访问腾讯云的Tencent Spark产品介绍页面（https://cloud.tencent.com/product/spark）了解更多相关信息。

页面内容是否对你有帮助？

有帮助

没帮助

如何启动调度的spark作业，即使之前的作业仍在rundeck上执行？

、、

为什么rundeck不启动调度的spark作业，即使之前的作业仍在执行？ Rundeck正在跳过设置为在执行前一个作业期间启动的作业，然后在其执行完成后根据计划启动新作业。但我希望启动一个计划的作业，即使前一个作业正在执行。

浏览 20提问于2019-06-21得票数 1

1回答

如何在相同的spark上下文中并行运行多个spark作业？

、、、

有没有办法在不同的线程中使用相同的spark上下文并行运行多个spark作业？我尝试使用Vertx 3，但看起来每个作业都在排队并按顺序启动。如何让它在相同的spark上下文中同时运行？下面是我的示例代码： vertx.executeBlocking(future -> { DataFrame dataframe = sqlContext.sql(sql); Row[] result = dataframe.collect(); System.out.println("Query result for " + sq

浏览 0提问于2015-08-27得票数 3

2回答

如何使用python多处理在Spark中运行多个并发作业

、、、

我已经在我的笔记本电脑上的纱线集群上设置了一个Spark，并且使用python多处理在Spark中运行多个并发作业时遇到了问题。我运行的模式是纱-客户模式。我尝试了两种方法来实现这个目标：设置一个SparkContext并创建多个进程来提交作业。此方法不起作用，程序崩溃。我想单个SparkContext不支持python多个进程。对于每个进程，设置一个SparkContext并提交作业。在这种情况下，作业成功地提交给纱线，但作业是串行运行的，每次只运行一个作业，而其他作业处于队列中。是否可以同时启动多个作业？更新设置纱线：资源.vcores vcore 8 资源.内存

浏览 2提问于2015-11-09得票数 2

1回答

如何在EMR集群中运行两个spark作业？

、

我有一个实时spark作业，它在EMR集群中运行，我还有另一个批处理作业，它在另一个EMR集群中运行，该作业在特定时间触发。如何在一个EMR集群中同时运行这两个作业？有什么建议吗。

浏览 2提问于2020-05-04得票数 0

2回答

Apache Spark如何收集和协调来自执行器的结果

、、

发布此问题以了解Apache Spark如何收集和协调来自执行者的结果。假设我正在运行一个有3个执行器的作业。我的DataFrame是分区的，并在这3个执行器上运行。那么，当我在DataFrame上执行count()或collect()操作时，spark将如何协调这三个执行器的结果呢？ val prods = spark.read.format("csv").option("header", "true").load("testFile.csv") prods.count(); // How spark collect dat

浏览 33提问于2019-11-04得票数 0

1回答

如果我在星火作业中使用scala并行集合，会发生什么？

、

如果我在星火作业中使用scala并行集合，会发生什么？(通常产生作业来处理多个线程上集合的分区)。还是有可能启动子线程的作业？ spark的JVM是将执行限制在单个核心上，还是能够明智地跨多个核心(大概是在同一个节点上)分配工作？

浏览 2提问于2016-09-15得票数 2

回答已采纳

2回答

星星之花装载机:减少列出数据文件所涉及的作业数量

、

我正在通过 spark.read.parquet('hdfs:///path/goes/here/...') 该路径中有大约50k个文件，这是由于拼板分区造成的。当我运行这个命令时，火花产生了几十个小任务，作为一个整体需要几分钟才能完成。以下是星星之火UI中的作业：如您所见，虽然每个作业有2100个任务，但它们在大约2秒内执行得很快。启动这么多“迷你作业”效率低下，导致该文件列表步骤花费大约10分钟(集群资源大部分空闲，集群主要处理分散的任务或管理作业/任务的开销)。如何将这些任务合并成更少的作业，每个任务都有更多的任务?对于同样适用于火花放电的解决方案，加分。

浏览 0提问于2018-03-06得票数 6

回答已采纳

1回答

即使是在并行线程中提交，Spark也会按顺序执行联接。

、、

我在Spark中的驱动程序节点上运行了4个并行线程，它们做同样的事情，但是使用不同的数据。Spark确实并行执行所有提交的作业，直到有一个联接。此时连接操作是按顺序执行的。这就是SparkUI所展示的：我能做些什么使连接并行运行吗？更新：我用于启动进程的命令是： spark-submit --master local[16] --class ... --driver-memory 11G --conf spark.default.parallelism=4 --conf spark.sql.shuffle.partitions=4

浏览 0提问于2018-12-05得票数 0

回答已采纳

1回答

SPARK_WORKER_CORES设置对火花单机并发性的影响

、、、

我使用的是以独立模式配置的Spark2.2.0集群。集群有2台八位数核心机器。此群集只用于火花作业，没有其他进程使用它们。我有大约8个星火流应用程序运行在这个集群上。我显式地将SPARK_WORKER_CORES (在Spark-env.sh中)设置为8，并使用全执行器核心设置为每个应用分配一个核心。此配置减少了并行处理多个任务的能力。如果一个阶段在有200个分区的分区RDD上工作，那么一次只执行一个任务。我想让Spark做的是为每个作业和进程并行启动单独的线程。但是我找不到一个单独的火花设置来控制线程的数量。所以，我决定在每台机器上玩一玩，把每台机器上的核心数量(即火花-env.sh中的

浏览 0提问于2018-01-29得票数 1

回答已采纳

1回答

Spark Sql执行是否使用线程本地jobgroup？

从我的发现来看，在不同的作业组中运行多个sparksql并不会将它们放入指定的组中。https://issues.apache.org/jira/browse/SPARK-29340 创建新的threadlocal jobgroup适用于spark dataframe作业，但不适用于sparksql。有没有办法将所有的线程本地spark sql执行放在一个单独的作业组中？ val sparkThreadLocal: SparkSession = DataCurator.spark.newSession() sparkThreadLocal.sparkContext.setJobGroup(

浏览 38提问于2019-10-03得票数 0

1回答

Spark作业仅在主服务器上运行

、、、

我有几个python作业需要用spark来执行。不过，python代码并没有使用任何spark特定的分布式库。它只是使用pandas、scipy和sklearn来操作数据。我使用以下命令提交要触发的作业：spark-submit --master spark://ip:7077 python_code.py 当我提交几个这样的作业时，所有的作业都只在master上执行。master上的CPU占用了100%，但是workeer节点都是空闲的。我认为spark的资源管理器将在整个集群中分配负载。我知道我的代码没有使用spark提供的任何分布式库，但是有没有一种方法可以将完整的作业分发到不同的节

浏览 2提问于2016-04-29得票数 0

1回答

Spark读表性能优化

、

我正在创建一个spark作业，我想知道通过spark.sqlContext().read("table")与spark.sql("select * from table")读表是否有任何性能优势，或者spark的逻辑计划是否无论如何都会得到相同的结果？

浏览 12提问于2019-02-20得票数 0

2回答

如何让spark作业使用Google Cloud DataProc集群上的所有可用资源？

、、

例如，我目前有一个由一个主服务器和4个工作进程组成的DataProc集群，每台机器都有8个vCPU和30 of内存。每当我向集群提交作业时，集群总共提交的最大值为11 job，并且只使用2个工作节点来完成工作，并且在这些节点上只使用了2个vCPU资源。这使得一个应该只需要几分钟的作业需要近一个小时才能执行。我已经尝试在主节点上编辑spark-defaults.conf文件，并尝试使用参数--executor-cores 4 --executor-memory 20g --num-executors 4运行我的spark-submit命令，但都没有任何效果。这些集群将只启动以执行单个任务

浏览 25提问于2019-03-20得票数 4

回答已采纳

1回答

火花运行在纱线上-一个真实的例子的工作流程是什么样子？

、、

我一直在读哈多普，纱线和火花。到目前为止，对我来说有意义的是我在下面总结的内容。 Hadoop MapReduce:客户端选择输入文件并将其交给Hadoop (或纱线)。Hadoop负责根据用户的InputFormat拆分flie，并将其存储在可用的和配置好的客户端的多个节点上，提交一个作业(map- Data )到纱线，该作业将jar复制到可用的数据节点并执行作业。纱线是负责实际任务的所有调度和运行的统筹器。星星之火:给定一个作业、输入和一组配置参数，它可以运行您的作业，这可能是一系列的转换，并为您提供输出。我还了解到MapReduce是一种基于批处理的处理范式，SPARK更适合于基于

浏览 3提问于2015-09-08得票数 3

回答已采纳

1回答

根据卡夫卡的信息发送和启动火花工作

、、

我有一个外部数据源，它通过Kafka发送数据。作为一个事实，这不是一个真正的数据，而是链接到数据。 "type": "job_type_1" "urls": [ "://some_file" "://some_file" ] 只有一个主题，但它包含了type字段，我需要基于该字段执行一个作业。数据不是连续的，而是更像作业--它包含一组数据，这些数据应该在一个批处理中处理。下一个话题是独立的。应同步处理同一类型的所有主题。选项：使用火花流。看起来这并不适合我的方案。而且没有内置的能力来考虑val

浏览 0提问于2019-07-29得票数 3

1回答

Spark Yarn在队列中运行1000个作业

、、

我正在尝试在Yarn集群中安排1000个作业。我想运行超过1000个工作每天在同一时间和纱线来管理资源。对于来自hdfs的1000个不同类别的文件，我尝试从python创建spark提交命令并执行。但是我得到了内存溢出错误，因为火花提交使用驱动程序内存。如何在星火纱线集群中调度1000个作业？我甚至尝试过oozie作业调度框架和spark，它在HDP上并没有像预期的那样工作。

浏览 10提问于2016-08-28得票数 1

1回答

从spark中的sql server并行读取

、、

我正在使用com.microsoft.sqlserver.jdbc.SQLServerDriver在spark作业中从sql server读取数据。为了提高性能，需要并行读取数据。spark job建立的连接数是否等于spark-submit命令中的核心数？

浏览 0提问于2019-06-28得票数 1

1回答

基于类型安全配置文件的Airflow schedule spark作业

、、

我正在使用Airflow计划向Hadoop集群提交JAR(对应于Spark应用程序的打包)。不同的Spark作业具有相同的JAR名称，但根据配置文件(我在TypeSafe配置库中使用.conf文件)启动不同的作业。我的问题是如何让Airflow解析.conf文件，以便知道要启动哪个spark作业。所以在这里，我使用spark-submit --class ( same class for all jobs) -Dconfig.file=path/to/config-file启动spark应用程序你对这个pleaseS有什么想法吗？

浏览 13提问于2018-09-10得票数 1

1回答

如何实现比spark集群内核数更高的并行度？

、

作为最后一步，我有一个通过网络发送数据的spark作业。另一端的接收器可以处理比我当前发送的多10到50倍的并发请求，所以我正在寻找一种方法来进一步并行化，而不是内核的数量。我找到了为一个执行器提供多个核心的方法，但没有找到如何在每个核心上使用多个执行器的方法。spark-submit的--num-executors选项没有帮助。选项也是如此。 spark.dynamicAllocation.enabled spark.dynamicAllocation.minExecutors spark.dynamicAllocation.maxExecutors

浏览 6提问于2020-07-31得票数 0

回答已采纳

1回答

Apache是直接从RDBMS处理数据的正确选择吗？

、、、、

我已经完成了一个关于如何使用Apache直接与RDBMS MySQL交互的POC。我能够使用以下代码与火花壳程序中的MySQL数据库进行交互： >>> empDF = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/SPARKPOC").option("dbtable", "SPARKPOC.EMP").option("user", "myuser").option("

浏览 1提问于2018-08-28得票数 0

1回答

如何在集群模式下交互运行spark

、

我有一个spark集群运行在 spark://host1:7077 spark://host2:7077 spark://host3:7077 并在尝试使用以下命令读取文件时通过/bin/spark-shell --master spark://host1:7077连接： val textFile = sc.textFile("README.md") textFile.count() 提示符说 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to

浏览 0提问于2015-04-22得票数 7

3回答

并发调度多个火花作业时的死锁

使用火花2.4.4运行在纱线集群模式与火花FIFO调度器。我使用一个线程池执行器向S3提交了多个火花数据数据操作(即向写入数据)，线程的数量是可变的。如果我有10个线程，这很好，但是如果我使用了数百个线程，就会出现死锁，没有根据Spark计划作业。哪些因素控制了有多少作业可以同时调度？驱动程序资源(例如内存/核心)？其他火花配置设置？编辑：下面是我的代码简介 ExecutorService pool = Executors.newFixedThreadPool(nThreads); ExecutorCompletionService<Void> ecs = new Exec

浏览 6提问于2020-02-05得票数 22

1回答

火花纱> spark.default.parallelism >从粗粒的角度看，无论大小

、

从Spark的粗粒度特性来看，当运行一个包含Join或Reduce键的Spark作业时，将spark.default.parallelism更改为一个大数目是个好主意，这样很多线程就可以同时在单个分区上工作了吗？据我理解，这应该没问题，对吧？但缺点是，这可能会使网络I/O通信繁忙。缺省值是所有可用核心的数量。有人能对此发表评论吗？提前感谢

浏览 4提问于2015-11-04得票数 0

1回答

如何在PySpark应用程序中读写Google Cloud Bigtable中的数据？

、、、

我在Google Cloud Dataproc集群上使用Spark，我想在PySpark作业中访问Bigtable。我们有没有像谷歌BigQuery连接器那样的Spark的Bigtable连接器？如何从PySpark应用程序访问Bigtable？

浏览 4提问于2016-11-02得票数 5

1回答

Apache Spark如何处理非Spark代码？

、、

假设我创建了一个Spark作业(在Java中)，其中包含Spark代码(使用Dataset API)和非Spark代码。看起来Spark代码将被自动并行化并在多台机器上运行。Spark知道只在一台机器上运行regular-Java/non-Spark吗？

浏览 3提问于2017-12-08得票数 1

1回答

Spark executor GC耗时很长

、、

我在一个独立的集群上运行Spark作业，我注意到过了一段时间，GC开始耗时很长，红色开始显示可怕的颜色。以下是可用的资源： Cores in use: 80 Total, 76 Used Memory in use: 312.8 GB Total, 292.0 GB Used 作业详细信息： spark-submit --class com.mavencode.spark.MonthlyReports --master spark://192.168.12.14:7077 --deploy-mode cluster --supervise --executor-me

浏览 8提问于2016-08-16得票数 5

1回答

如何按顺序运行spark作业？

、、

我正在提交多个Spark作业。一个作业使用一个工人。目前，我一次提交了30个作业，5个作业正在运行，25个作业正在等待。但是，此操作会给服务器带来沉重的负载。(有时无法分配作业端口并发生错误。) 是否有可能在一次运行5个部件的情况下减少负载？当前我的运行代码：： ~/spark-submit ~test1.py & ~/spark-submit ~test2.py & ~/spark-submit ~testN.py & ... ~/spark-submit ~test30.py

浏览 28提问于2020-11-30得票数 0

回答已采纳

2回答

如何在Spark Engine上运行Mahout作业？

、、

目前，我正在使用Mahout RowSimilarity作业进行一些文档相似性分析。这可以通过运行命令‘mahout rowsimilarity…’轻松完成。从控制台。然而，我注意到这个作业也支持在Spark engine上运行。我想知道如何在Spark Engine上运行此作业。

浏览 5提问于2015-06-02得票数 1

1回答

如何在Directstream方法中使用核心

、

我们有1卡夫卡主题，通过使用spark中的直接流方法，我们必须处理主题中的数据，用一个节点的R&D集群来了解星火的行为。我的机器配置是4核，16 GB内存和1执行器。我的问题是，在运行时，这个工作使用了多少个内核。在网络控制台中，它显示了4个核心被使用。如何在Directstream中使用核来实现？命令运行作业： ~/spark/lib/IndexingClient.jar .///bin/spark提交--主火花://XX.XXX:7077- org.eiq.IndexingClient类org.eiq.IndexingClient

浏览 3提问于2015-12-03得票数 0

1回答

是否有解决"org.apache.spark.SparkException: Kryo序列化失败:缓冲区溢出。可用: 0，必需: n“错误的解决方法？

、、、

我正在通过spark-submit运行一个pyspark作业，在这个作业中，在应用一些额外的逻辑之前，首先将两个大型镶嵌板桌子连接在一起。提交后，所有任务都会失败，日志中会显示以下内容： Caused by: org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: n*. To avoid this, increase spark.kryoserializer.buffer.max value *n只是一个变量，表示需要多少内存。该值取决于我将sp

浏览 87提问于2020-01-18得票数 0

1回答

Spark Streaming CPU利用率低

、

在我的Spark Streaming作业中，CPU未得到充分利用(仅5-10%)。它从Kafka获取数据并发送到DynomoDB或thridparty端点。假设端点不是瓶颈，是否有任何建议的作业可以更好地利用cpu资源。

浏览 1提问于2017-03-18得票数 0

1回答

spark.executor.cores Vs spark.executor.instance我应该增加哪一个？

为了并行化spark作业，可以同时增加内核数量和执行器实例数量。这里的权衡是什么?应该如何选择这两个配置的实际值？

浏览 1提问于2020-06-01得票数 0

1回答

识别星火中数据偏斜的原因

、、

我正在调查一个Spark作业(Spark1.6.0)，由于200个分区的数据严重倾斜，该作业的性能很差，大部分数据位于一个分区中：我想知道的是，在Spark中，is...is可以帮助我更多地了解数据是如何分区的吗？从这个角度来看，我不知道数据文件是在哪些列上分区的。我怎么知道呢？(除了查看代码-我想知道日志和/或UI中是否有可以帮助我的东西)？更多细节，这是使用星火的dataframe API，星火版本1.6。底层数据以拼花格式存储。

浏览 2提问于2017-10-06得票数 1

回答已采纳

1回答

Spark2.2在内存或工作人员较多的情况下失败，成功时内存很少，工作人员很少

、、、

我们在Scala中有一个Spark2.2作业写程序，它在一个纱线集群中运行，执行以下操作：将数千个小型压缩拼花文件(每个约15 two )读入两个数据中在一列上加入数据格式删除所有列以清除某些数据。拖放重复把结果数据写到地板上以下配置通过java.lang.OutOfMemory java堆空间失败： spark.yarn.am.memory=4g-conf --conf spark.executor.memory=20g -conf spark.yarn.executor.memoryOverhead=1g -conf spark

浏览 1提问于2018-06-20得票数 0

1回答

为什么在提供了足够的内存和分区后，spark应用程序崩溃并出现异常java.net.SocketException: Connection reset？

、、

我正在尝试从Sqlserver数据库加载一个表到Bigquery，它的大小是27 of，2.18亿行和28列。源表没有任何包含唯一值的列，以便Spark对传入的数据进行均匀分区。因此，我将row_number()应用于我正在读取的数据，如下所示： spark = SparkSession.builder.appName('Read_from_Source').getOrCreate() dataframe = spark.read.format('jdbc').option('url', URL).option('driver'

浏览 104提问于2021-03-02得票数 3

2回答

在apache星火中跨多个工人运行单个作业

、

我试图了解Spark如何在多个工作人员之间拆分单个作业(使用sbt包构建的scala文件，以及jar是如何使用火花提交命令运行的)。例如:我有两个工作人员(每个内存512 For )。我提交一个作业，它只分配给一个工作人员(如果驱动程序内存小于工作内存)。如果驱动程序内存大于工作内存，则不会分配给任何工作人员(即使两个工作人员的组合内存高于驱动程序内存)，并进入提交的状态。只有当具有所需内存的工作人员在集群中可用时，此作业才会进入运行状态。我想知道一个任务是否可以被分成多个工人，是否可以并行运行。如果是的话，有人能帮我做具体的步骤吗？注意: scala程序需要大量的jvm内存，因为我将使

浏览 2提问于2014-07-10得票数 1

3回答

齐柏林飞艇:如何在齐柏林飞艇中重启sparkContext

、

我正在使用zeppelins spark解释器的隔离模式，在这种模式下，它将为spark集群中的每个笔记本启动一个新作业。当笔记本执行完成时，我想通过zeppelin终止作业。为此，我做了sc.stop，这会停止sparkContext，作业也会从spark集群中停止。但下次当我尝试运行笔记本电脑时，它不会再次启动sparkContext。那么如何做到这一点呢？

浏览 3提问于2016-11-11得票数 16

1回答

如何获得火花SUBMISSION_ID与火花提交？

许多地方都需要SUBMISSION_ID，比如和Spark。但是，当我使用SUBMISSION_ID命令提交火花作业时，如何获得这个spark-submit呢？ P.S.：我使用python [popen][2]启动spark-submit作业。我想要SUBMISSION_ID，这样我的python程序就可以通过REST：<ip>:6066/v1/submissions/status/<SUBMISSION_ID>监视火花作业状态。

浏览 1提问于2019-03-13得票数 1

回答已采纳

1回答

使用Kafka在长期运行的火花作业之间进行通信

、、、、

我是Apache的新手，需要同时在我的Spark集群上运行几个长期运行的进程(作业)。通常，这些单独的进程(每个进程都是自己的工作)需要相互沟通。试探性地，我正在研究如何使用Kafka作为这些过程之间的中介。所以高级别的工作到工作的交流看起来就像：作业#1做了一些工作，并将消息发布到Kafka主题作业#2被设置为同一个Kafka主题的流接收器(使用StreamingContext)，一旦消息发布到该主题，作业#2就会消耗它。作业#2现在可以根据它消耗的消息做一些工作。据我所知，流上下文阻塞了在Spark驱动程序节点上运行的侦听器。这意味着，一旦启动了流媒体使用者，如

浏览 5提问于2016-08-15得票数 2

回答已采纳

1回答

在Kubernetes上启动UI历史服务器？

、

使用星星之交，我在Kubernetes集群上启动应用程序。只有当我去的时候我才能看到Spark。如何在集群上启动Spark历史服务器？如何使所有正在运行的火花作业都在spark历史服务器上注册。这个是可能的吗？

浏览 0提问于2018-08-11得票数 14

回答已采纳

2回答

远程运行的spark作业

、、、

正在尝试运行启动Spark作业。 Spark作为包安装在Cloudera Hadoop中。如何使用Java API远程启动Spark作业？

浏览 0提问于2014-09-02得票数 2

1回答

即使在Spark主进程被终止后，spark作业仍在运行

、、、

我们正在spark集群上工作，即使在spark "Master“进程被杀死后，spark作业(S)也能成功提交。这是关于我们正在做的事情的完整细节。程序详情:- jps 19560 NameNode 18369 QuorumPeerMain 22414 Jps 20168 ResourceManager 22235主机我们使用下面的命令向这个Master提交了一个spark作业 spark-1.6.1-bin-without-hadoop/bin/spark-submit --class com.test.test --master yarn-client --部署模式客户端te

浏览 27提问于2017-01-30得票数 1

1回答

如何将配置从spark-submit传递到yarn集群？

、、、、

我想知道有没有办法让spark-submit临时改变yarn作业的配置？这个问题是因为我们的Spark over yarn集群的历史服务器只允许管理员访问，这对用户检索自己的作业日志并不方便。我了解到mapreduce-default.xml中的"mapreduce.job.acl-view-job“可以更改特定作业的ACL。因为我正在使用spark-submit启动作业，并且"--conf“是为spark本身保留的，但是我如何从命令行和应用程序一起设置yarn的配置呢？

浏览 0提问于2018-05-19得票数 0

1回答

Spark应用程序继续运行，似乎处于挂起状态- org.apache.spark.sql.hive.thriftserver.HiveThriftServer2

、、、

我在Hadoop集群中使用的是HDFS 2.7.3和Spark2 2.0.0。当我启动Spark2 Thrift服务器时，它成功地启动了，但从配置单元用户自动开始运行一个作业，它似乎永远挂起。如果我手动终止该作业，它将再次使用新的applicationId启动一个新作业。但是如果我停止Spark2 Thrift服务器，它就会终止作业。你能帮我理解一下这个问题吗？提前谢谢。

浏览 0提问于2017-04-21得票数 3

2回答

Spark (Kafka)流内存问题

、、、

我正在测试我的第一条处理来自Kafka的消息的Spark Streaming管道。但是，在几次测试运行之后，我得到了以下错误消息There is insufficient memory for the Java Runtime Environment to continue. 我的测试数据真的很小，所以这种情况不应该发生。在查看了process之后，我意识到可能之前提交的spark作业并没有完全删除？我通常像下面这样提交作业，并且我使用的是Spark 2.2.1 /usr/local/spark/bin/spark-submit --packages org.apache.spark:

浏览 2提问于2018-05-04得票数 3

1回答

在我的铸造工作中，任务的最大理论并行性是什么？

、、、

我知道在我的工作的Spark页面中有并行性(任务并发性)的迹象，但是我想知道这个数字是如何计算的，因为它不匹配我的作业运行的执行者的数量？

浏览 1提问于2022-03-14得票数 1

1回答

为不同的并行度运行Spark作业

、

我想要比较不同并行度的Spark作业的运行时间，以便分析是否添加更多的并行度更快。问题是，当我创建Spark会话时，我认为我可以通过更改以下内容来实现： val spark = SparkSession.builder .master(master) .appName(name) .config(conf) .config("spark.default.parallelism", number_of_partitions) // this is the value I change 但是我已经在number_of_partiti

浏览 34提问于2021-05-15得票数 0

回答已采纳

1回答

Spark并行操作

、

下面是我的驱动程序(伪代码)： // read all the files df1 = spark.read(f1) df2 = spark.read(f2) df3 = spark.read(f3) ..。 df10 = spark.read(f10) // crossjoin each pair and report the count<br> cdf1 = df1.crossjoin(df2) print cdf1.count ... cdf5 = df9.crossjoin(df10) print cdf5.count 当我执行spark-submit并转到跟踪器UI时

浏览 16提问于2019-03-13得票数 1

回答已采纳

1回答

如果之前的任务在Apache Airflow中失败，如何运行任务

、、、

我需要做以下工作：检查服务器是否启动，如果是，我检查该服务器中的Spark集群是否启动，如果它关闭，我尝试启动它，如果它已经启动，我继续运行我的Spark作业。我想创建一个任务来检查Spark集群是否启动(可能尝试运行一个简单的Spark作业)。如果失败，我会启动“启动Spark cluster”任务。我正在使用Airflow，但找不到一种方法来触发一个任务，以防前一个任务失败。除此之外，我需要检查前一个，以防它成功，这样它就会转移到Spark作业任务，并跳过"Start Spark Cluster“任务。如果你能提供一些样品，那就太好了。我尝试使用trigger_rule和分

浏览 2提问于2017-02-06得票数 3

1回答

spark web UI符号

我在我的一端运行示例作业，spark作业UI显示总正常运行时间为26秒，但当我将作业的持续时间列加起来时，它只有17-18秒，我应该依靠它来确定运行作业执行逻辑的总时间.I不关心启动和停止集群的时间.Is 26秒，是这样的情况吗?我如何忽略启动和停止集群的时间，并获得我的逻辑的最终执行时间。我的spark配置如下所示： val conf = new SparkConf().setAppName("Metrics").setMaster("spark://master:7077").set("spark.executor.memory", &#

浏览 1提问于2017-01-03得票数 0