问集群部署模式，而不是客户端，需要满足哪些条件？
EN

Stack Overflow用户

提问于 2015-03-02 10:27:17

回答 3查看 41.4K关注 0票数 52

文档https://spark.apache.org/docs/1.1.0/submitting-applications.html

将部署模式描述为：

--deploy-mode: Whether to deploy your driver on the worker nodes (cluster) or locally as an external client (client) (default: client)

使用此图表fig1作为指南(取自http://spark.apache.org/docs/1.2.0/cluster-overview.html)：

如果我启动了Spark任务：

./bin/spark-submit \
  --class com.driver \
  --master spark://MY_MASTER:7077 \
  --executor-memory 845M \
  --deploy-mode client \
  ./bin/Driver.jar

则Driver Program将为MY_MASTER，如fig1 MY_MASTER中所指定

如果我使用--deploy-mode cluster，那么Driver Program将在工作节点之间共享吗？如果这是真的，那么这是否意味着fig1中的Driver Program机器可以被丢弃(因为它不再被使用)，因为SparkContext也将在工作节点之间共享？

在什么情况下应该使用cluster而不是client？

apache-spark

云点播特惠1元起

提供制作上传、存储、转码、媒体处理、媒体 AI、加速分发播放、版权保护等一体化的高品质媒体服务

回答 3

Stack Overflow用户

回答已采纳

发布于 2015-03-02 11:07:12

不需要，当deploy-mode为client时，驱动程序不一定是主节点。你可以在你的笔记本电脑上运行spark-submit，驱动程序就会在你的笔记本电脑上运行。

相反，当部署模式为cluster时，则使用集群管理器(主节点)来查找具有足够可用资源来执行驱动程序的从节点。因此，驱动程序将在其中一个从节点上运行。因为它的执行是委托的，所以你不能从驱动程序中获得结果，它必须将其结果存储在文件、数据库等中。

对于想要获取作业结果的Spark模式(dynamic analysis)

Easier running
Always UI

，您的驱动程序是 up应用程序:将

作业启动器显示为REST服务或
- 应用程序

群集模式
- 更容易进行资源分配(让主控决定)：像其他工作人员一样，从主控Web UI启动并停止您的驱动程序
- 在结束时停止:一个作业完成，分配的资源为freed

票数 96

Stack Overflow用户

发布于 2015-04-27 12:49:01

我认为这可能会帮助你understand.In文档https://spark.apache.org/docs/latest/submitting-applications.html它说：“一种常见的部署策略是从物理上与你的工作者机器(例如，独立EC2集群中的主节点)位于同一位置的网关机器提交你的应用程序。在这个设置中，客户端模式是合适的。在客户端模式下，驱动程序直接在作为集群客户端的spark-submit进程中启动。应用程序的输入和输出附加到控制台。因此，这种模式特别适用于涉及REPL的应用程序(例如Spark shell)。

或者，如果您的应用程序是从远离工作者机器的机器上提交的(例如，在您的笔记本电脑上本地)，则通常使用集群模式来最小化驱动程序和执行器之间的网络延迟。注意，Mesos集群或Python应用程序目前不支持集群模式。“

票数 7