如何在java sdk v2中向正在运行的EMR集群提交新步骤

、、

我正在尝试使用java sdk v2向正在运行的EMR集群提交一个HadoopJarStep。通过阅读api文档/示例，我似乎想不出如何引用一个正在运行的集群而不是旋转一个新的集群。有人能告诉我正确的构建器方法来指定要提交

浏览 19提问于2020-06-23得票数 0

回答已采纳

1回答

我是否可以像在本地群集上一样在EMR上运行作业

、、、

我已经在我的笔记本电脑上构建了一个本地集群(伪模式)。在那里我运行不同的mapreduce命令，比如 -D mapred.output.compression.codec\ -input /aws/input/input_warc.txt \现在我必须在电子病历上<e

浏览 0提问于2017-01-12得票数 0

2回答

如何在Amazon上运行Python火花代码？

、、、

我已经编写了一个python代码，我想在Amazon的上运行它。我的代码在我的本地机器上工作得很好，但是我对如何在Amazon的AWS上运行它感到有点困惑？或者，我应该将ssh转换为Master并将我的python代码scp到Master中的火花文件夹中吗？现在，我尝试在我的终端上本地运行代码并连接到集群地址(我是通过读取火花的</em

浏览 3提问于2016-11-05得票数 9

回答已采纳

2回答

如何使用AWS Lambda在AWS EMR上运行PySpark

、、、

如何通过AWS Lambda使我的PySpark代码与AWS EMR一起运行？我是否必须使用AWS Lambda创建一个自动终止的EMR群集来运行一次S3存储的代码？

浏览 0提问于2020-06-03得票数 0

2回答

我是非常新的AWS步骤函数和AWS Lambda函数，并可能真的需要一些帮助。我有一个状态机，在这里我试图检查某个文件是否存在于我的S3桶中，然后让状态机按照一个路径运行，如果该文件存在，那么另一个路径，如果它不存在的话。如您所见，我试图使用Lambda函数返回变量FoundNecessaryFiles，状态为true/false，具体取决于是否找到了该文件，并使用该值指导下一步的选择。最好是通过修正变量回传来解决这个问题，因为我可能需要在稍后的</e

浏览 0提问于2019-10-14得票数 3

回答已采纳

1回答

在电子病历中运行火花作业时的IllegalAccessError

、、、、

我正在尝试运行一个访问dynamodb的星星之火作业，并且已经不再推荐实例化dynamoDb客户机的旧方法，现在建议使用客户机构建器。中的异常:尝试从类com.amazonaws.services.dynamodbv2.AmazonDynamoDBAsyncClientBuilder访问类java.lang.IllegalAccessError_1)我的build.sbt包含： libraryDependencies += &q

浏览 0提问于2017-04-05得票数 2

2回答

自动化标准Mahout推荐器

、、、

现在我正在考虑自动化这个执行，以便一个专用的Lambda函数向EMR提交一个步骤，并忘记它。最简单的方法是什么？是否可以在不使用Java编写整个推荐应用程序的情况下将其作为Hadoop的JAR步骤提交？在深入研究了一段时间之后，最简单的选择(至少对我来说)是EMR集群上的“自定义JAR”作业，具有以下参数：

浏览 2提问于2016-07-29得票数 0

1回答

从ECS码头集装箱运行EMR作业

、

我已经将用python编写的ML作业代码包含到一个码头容器中，并能够使用Amazon作为码头服务运行。我想使用星星之火以分布式方式运行，并在亚马逊EMR.Can上部署，建立ECS和EMR之间的连接？

浏览 3提问于2017-05-25得票数 9

回答已采纳

1回答

在哪种情况下，人们应该更喜欢在EC2机器上创建星火集群而不是使用弹性地图减少？

、

在EC2机器上使用星盘集群处理实时数据和使用弹性映射约简处理实时数据之间的一些区别是：我知道，使用Elastic将提供不必管理

浏览 2提问于2020-10-22得票数 0

1回答

在单个EMR集群中调用多个火花作业

、、

我想调用多个火花作业使用火花提交在单个EMR集群内。EMR支持这一点吗？如何做到这一点？在这个时候，我使用AWS Lambda来调用EMR作业，但是我们希望扩展到单个EMR集群中的多个火花作业。

浏览 3提问于2019-03-31得票数 1

1回答

如何使火花保存它的临时文件在S3上？

、、

我正在AWS EMR集群上运行spark作业，从客户端主机提交它们。客户端机器只是一个EC2实例，它以集群模式向EMR提交作业。问题是- spark可以保存200 is的临时文件，如下所示：Tmp文件夹很快就会被这样<e

浏览 2提问于2018-10-01得票数 0

回答已采纳

2回答

是否可以将AutoScaling与弹性映射推理结合使用？

、

我想知道，我是否可以使用AutoScaling自动升级或下降亚马逊的Ec2容量，根据cpu的利用率与弹性地图减少。例如，我只使用一个实例启动mapreduce作业，但是如果该实例达到50%的利用率(例如，我希望使用创建的AutoScaling组来启动一个新实例)。这有可能吗？你知道这是否可能吗？或者弹性mapreduce，因为它是“弹性的”，如果它需要自动启动更多的实例而没有任何配置？

浏览 3提问于2015-04-24得票数 0

回答已采纳

2回答

使用Step函数运行AWS EMR集群

、、、

我对AWS Step函数和AWS Lambda函数非常陌生，我真的需要一些帮助来让EMR集群通过Step函数运行。这些任务正在正常工作。在我目前的结构中，第一项任务是建立一个EMR集群。我也有一个JSON文件(名为EMR-RUN-Script.json)位于我的S3桶上，它将向<e

浏览 3提问于2019-10-14得票数 1

1回答

如何在没有HDFS或EMR引导步骤的所有工作节点上创建文件

、、、

我在EMR-5.30集群上运行ApacheSpark2.4.5。我的驱动程序节点正在做一些工作，从外部服务中检索数据，因此我可以将其放入文本文件中，并将副本分发给所有工作节点。我想出了一些可能的解决方案，用于向所有工作节点分发文件，但意识到这些解决方案是行不通的：使用EMR引导操作提交运行shell脚本的EMR步骤</

浏览 1提问于2021-07-06得票数 0

1回答

AWS EMR在集群中所有已运行的计算机上执行"bootstrap“脚本

、、、、

我有一个全天候运行的EMR集群，我不能关闭它并启动新的集群。1)在所有正在运行的实例上运行该脚本(如果可以这样做的话就更

浏览 1提问于2014-10-27得票数 17

4回答

如何使用boto3 (或其他方式)在电子病历上自动化火花放电作业？

、、、、

我正在创建一个任务来解析大量的服务器数据，然后将其上传到Redshift数据库中。我的工作流程如下：将数据从S3上传到Redshift。不过，我还想不出如何实现自动化，这样我的过程就会产生一个EMR集群，引导正确的安装程序，并运行我的python脚本，它将包含用于解析和编写的代码。

浏览 7提问于2016-04-19得票数 17

回答已采纳

1回答

Google Dataproc Presto:如何使用Python运行查询

、、、、

通过执行此中的步骤，我已经设置了一个运行Presto的Google Dataproc集群。 --execute "SELECT COUNT(*) FROM chicago_taxi_trips_parquet;" 最后，本教程展示了如何通过java我正在尝试用Python找到类似的

浏览 13提问于2021-03-14得票数 3

1回答

EMR群集无法在另一个桶中下载引导操作。

、、

我正在尝试使用引导操作()来修补AWS集群。但是，同一集群是在同一帐户下在两个区域A和B中创建的。迄今所采取的步骤： The bu

浏览 21提问于2022-02-28得票数 0

回答已采纳

4回答

在EMR上向Spark添加JDBC驱动程序

、、

我正在尝试将JDBC驱动程序添加到在Amazon之上执行的Spark集群中，但我一直得到以下内容：使用addJar显式地从代码中添加驱动程序Jar。使用spark.driver.userClassPathFirst=true时，当我使用这个选项时，我得到了一个不同的错误，因为将依赖项与Spark混合在一起，如果我只想添加一个JAR，那么这个选项看起来就太

浏览 3提问于2015-09-24得票数 3

1回答

在AWS中使用AddJobFlowStep的正确方法是什么？

、、、

我使用go AWS创建了一个集群，并在其中添加了一个作业流步骤。但是，当我编程执行该步骤时，它的执行总是失败的。值得注意的一点是，当我从UI中附加jar时，它成功地执行了。因此，当jar从UI附加时，这是步骤执行的结果(它成功运行并移动到已完成的状态)：(复制全文) JAR位置:命令-runner.jar主类:无参数:星火-提交--部署模式集群--类Hello

浏览 4提问于2017-03-21得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

我是否可以像在本地群集上一样在EMR上运行作业

如何在Amazon上运行Python火花代码？

如何使用AWS Lambda在AWS EMR上运行PySpark

AWS阶跃函数中的Pass变量

在电子病历中运行火花作业时的IllegalAccessError

自动化标准Mahout推荐器

从ECS码头集装箱运行EMR作业

在哪种情况下，人们应该更喜欢在EC2机器上创建星火集群而不是使用弹性地图减少？

在单个EMR集群中调用多个火花作业

如何使火花保存它的临时文件在S3上？

是否可以将AutoScaling与弹性映射推理结合使用？

使用Step函数运行AWS EMR集群

如何在没有HDFS或EMR引导步骤的所有工作节点上创建文件

AWS EMR在集群中所有已运行的计算机上执行"bootstrap“脚本

如何使用boto3 (或其他方式)在电子病历上自动化火花放电作业？

Google Dataproc Presto:如何使用Python运行查询

EMR群集无法在另一个桶中下载引导操作。

在EMR上向Spark添加JDBC驱动程序

在AWS中使用AddJobFlowStep的正确方法是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐