腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1831)
视频
沙龙
1
回答
如果
作业
耗时
超过
预期
,
则
终止
Spark
作业
或
终止
EMR
集群
、
、
我有一个周期性挂起的
spark
作业
,使我的AWS
EMR
集群
处于一个应用程序正在运行但实际上
集群
被卡住的状态。我知道,
如果
我的工作没有停滞不前,它将在5小时
或
更短的时间内完成。
如果
在那之后它仍然在运行,这是
作业
被卡住的迹象。Yarn和
Spark
UI仍然是响应式的,只是执行器被任务卡住了。背景:我使用的是一个短暂的
EMR
集群
,它在
终止
之前只执行一个步骤,所以<em
浏览 26
提问于2019-01-10
得票数 1
2
回答
终止
aws中的
spark
步骤
、
、
、
我想在
EMR
spark
集群
上设置一系列
spark
步骤,
如果
花费的时间太长,
则
终止
当前步骤。但是,当我ssh进入主节点并运行hadoop job -list时,主节点似乎认为没有
作业
在运行。我不想
终止
集群
,因为这样做会迫使我为我正在运行的任何
集群
购买一个全新的小时。有没有人可以帮我在不
终止
整个
集群
的情况下
终止
EMR
中的
s
浏览 2
提问于2016-01-27
得票数 14
回答已采纳
2
回答
如何使用SDK在
EMR
集群
上运行Scala代码?
、
、
我用Scala编写了在
EMR
中运行
集群
的代码。另外,我还有一个用Scala编写的
Spark
应用程序。我想在
EMR
集群
上运行此
Spark
应用程序。但我可以在第一个脚本(启动
EMR
集群
)中执行此操作吗?我想用SDK完成所有这些操作,而不是通过控制台
或
CLI。它必须是一种自动化,而不是单一的手工
作业
(
或
最小化手动
作业
)。基本上; 启动电子病历群集->在电子病历->上运行<em
浏览 1
提问于2020-03-23
得票数 0
1
回答
Amazon上次
作业
完成后
终止
集群
所需的时间
、
、
、
我启动了一个
EMR
集群
,其规格如下: 星火
作业
是相关的经过几次尝试后,似乎每次火花
作业
大约在1小时零15分钟内
终止
(我可以在
Spark
中看到完成的
作业
,我可以在S3中看到很好的输出)。但是
EMR
集群
在关闭前挂在20到30分钟之间。为什么
EMR
<
浏览 3
提问于2018-05-18
得票数 0
3
回答
在Java应用程序中,如何等待弹性MapReduce
作业
流的完成?
、
、
、
我正在使用Amazon Elastic MapReduce (Amazon
EMR
)编写应用程序。计算结束后,我需要对他们创建的文件执行一些工作,因此我需要知道
作业
流何时完成其工作。以下是检查
作业
流是否已完成的方法:您还可以在De
浏览 3
提问于2012-05-26
得票数 12
1
回答
EC2 (永久) HDFS和
EMR
(瞬时) HDFS如何通信
、
、
、
、
我已经在亚马逊EC2上建立了一个Hadoop
集群
,提供了NameNode/DataNode和其他一些服务。我的摄取
作业
将数据带入EC2 HDFS
集群
(比方说hdfs://ec2-hdfs/)。我正在启动一个新的Amazon
EMR
集群
来运行我的计算。一旦处理完成,我将
终止
EMR
集群
。 我需要在
EMR
中运行的
spark
作业
的输入是在EC2 HDFS (hdfs:
浏览 10
提问于2019-07-16
得票数 0
3
回答
AWS步骤函数有超时功能吗?
、
现在,我有一个AWS Step函数来创建、运行和
终止
EMR
集群
作业
。我想添加一个超时功能,以停止
作业
并在
集群
被卡住
或
运行时间过长的情况下
终止
集群
(例如,让一个输入变量"TIMEOUT_AFTER_X_HOURS": 12与
集群
信任一起传递到状态机,这将自动停止
作业
,
如果
集群
在
浏览 3
提问于2019-11-01
得票数 4
回答已采纳
3
回答
使用Airflow dag创建
EMR
群集运行,一旦任务完成,
EMR
将
终止
、
、
、
我有Airflow
作业
,它们在
EMR
集群
上运行得很好。我需要的是,假设我有4个airflow
作业
,需要
EMR
集群
20分钟才能完成任务。为什么不呢?我们可以在DAG运行时创建一个
EMR
集群
,一旦
作业
完成,它将
终止
创建的
EMR
集群
。
浏览 4
提问于2019-03-19
得票数 2
2
回答
如何使用AWS Lambda在AWS
EMR
上运行PySpark
、
、
、
如何通过AWS Lambda使我的PySpark代码与AWS
EMR
一起运行?我是否必须使用AWS Lambda创建一个自动
终止
的
EMR
群集来运行一次S3存储的代码?
浏览 0
提问于2020-06-03
得票数 0
1
回答
纱线公平调度器资源分配不均匀
、
、
我有一个带有Yarn Fair scheduler的AWS
EMR
集群
设置。目前,
如果
我启动一个大型
作业
(
作业
A),它会启动并占用
集群
的所有CPU和内存。
如果
我启动第二个
作业
(
作业
B),而群集正在从
作业
A耗尽资源,它将进入已接受状态,但不会运行。即使打开了自动缩放并且向群集中添加了新节点,也会将新资源分配给
作业
A,而不是
作业
B。同时,
作业
B会继续等待,直到
浏览 16
提问于2019-09-07
得票数 0
1
回答
使用纱线
集群
模式提交
spark
申请
我编写了一个shell脚本,它调用
spark
-sumit向yarn cluster模式的yarn提交一个应用程序。当应用程序启动时,客户端进程(提交应用程序的进程)会被
终止
吗?
浏览 15
提问于2020-05-25
得票数 0
回答已采纳
3
回答
如何按需创建
EMR
集群
并执行aws
emr
命令?
、
、
、
我想按需执行火花
作业
。因此,只有当我接收到触发器事件时,我才希望使用与此触发器事件一起到达的输入来执行火花
作业
。由于触发事件并不频繁,所以我不想使用星火流。我的目标是在AWS
EMR
集群
中部署该工具。我希望能够按需创建
EMR
集群
(按触发器),在那里执行
Spark
作业
并关闭群集。有什么好的例子说明如何处理Scala中的这些操作吗?
浏览 2
提问于2018-02-02
得票数 1
回答已采纳
1
回答
如何在使用terraform创建电子病历时启动
Spark
作业
、
、
通过Terraform,我想创建一个
EMR
集群
,启动一个
Spark
Job,并在
作业
完成时
终止
该
集群
。我在Terraform文档()中找到了这个步骤机制,但我在谷歌上没有找到任何关于
Spark
Job的示例(一个谢谢你的帮忙
浏览 0
提问于2019-02-27
得票数 1
1
回答
无法优雅地完成气流DAG
、
、
我有一个
spark
-streaming
作业
,运行在
EMR
上,由气流排定。我们每周都要优雅地
终止
这个电子病历
集群
。但是,当我向运行中的kill应用程序发出SIGTERM
或
spark
-streaming信号时,它在气流DAG中报告为“失败”任务。这将阻止DAG进一步移动,防止下一次运行触发。有什么方法可以杀死正在运行的
spark
-streaming应用程序来标记成功,或者让DAG完成,即使它认为任务失败了?
浏览 1
提问于2018-07-23
得票数 0
1
回答
如何将
spark
.ml管道拟合和超参数优化集成在AWS中?
、
、
下面是我正在努力实现的目标的高级图片:我想用
spark
作为一个计算来训练一个模型,所有这些都是在SageMaker中使用他们的训练Job。我希望使用SageMaker培训
作业
设置,这样我就可以使用SM超参数优化工作来为LightGBM找到最佳的超级参数。我感到困惑的是,从本质上说,要使用星火计算后端,我需要运行一个
EMR
集群
,所以SDK也必须处理这个问题。但是,我看不出上面的API是如何做到的。
浏览 3
提问于2022-01-24
得票数 2
回答已采纳
1
回答
是否有可能等到
EMR
集群
被
终止
?
、
、
、
、
我正在尝试编写一个组件,它将启动一个
EMR
集群
,在该
集群
上运行一个
Spark
管道,然后在管道完成后关闭该
集群
。我有两个具体问题: 对
emr
.runJobFlow的调用在提交结果后立即返回。有什么方法可以让它阻塞直到<em
浏览 0
提问于2019-06-13
得票数 2
回答已采纳
4
回答
如何使用boto3 (
或
其他方式)在电子病历上自动化火花放电
作业
?
、
、
、
、
我的工作流程如下: 将数据从S3上传到Redshift。不过,我还想不出如何实现自动化,这样我的过程就会产生一个
EMR
集群
,引导正确的安装程序,并运行我的python脚本,它将包含用于解析和编写的代码。有没有人有任何例子,教程,
或
经验,他们可以与我分享,以帮助我学习如何做到这一点?
浏览 7
提问于2016-04-19
得票数 17
回答已采纳
3
回答
如何清理销毁的AWS
EMR
集群
列表?
、
我有大约88个
EMR
集群
在我的AWS账户中
终止
。如何清理销毁的
EMR
集群
列表?AWS会清理这个列表吗?谢谢! 尼古拉斯
浏览 3
提问于2014-05-06
得票数 14
1
回答
Spark
应用程序继续运行,似乎处于挂起状态- org.apache.
spark
.sql.hive.thriftserver.HiveThriftServer2
、
、
、
我在Hadoop
集群
中使用的是HDFS 2.7.3和
Spark
2 2.0.0。当我启动
Spark
2 Thrift服务器时,它成功地启动了,但从配置单元用户自动开始运行一个
作业
,它似乎永远挂起。
如果
我手动
终止
该
作业
,它将再次使用新的applicationId启动一个新
作业
。 但是
如果
我停止
Spark
2 Thrift服务器,它就会
终止
作业
。你能帮我理解一下这个问题吗?
浏览 0
提问于2017-04-21
得票数 3
2
回答
如何以编程方式杀死
EMR
任务
、
、
、
我想以编程方式杀死一个
EMR
流任务。
如果
我从
EMR
或
boto客户端杀死它,它就会在
EMR
中消失,但它在Hadoop
集群
中仍然是活动的(参见)。只有当我通过Hadoop资源管理器并从那里杀死它时,
作业
才会
终止
。如何通过编程实现相同的功能呢?
浏览 10
提问于2022-10-27
得票数 0
回答已采纳
点击加载更多
相关
资讯
Komodo Health 公司如何在 EKS 与 EMR 6 上使用多租户 Notebook 平台建立自助服务分析方案
Hadoop Hadoop中的推测执行
EMR 实战心得浅谈
【云原生】Spark on k8s 讲解与实战操作
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券