如何在EMR集群中跨Jupyter笔记本使用自定义用户定义函数？

文章/答案/技术大牛

发布

1回答

用纱线客户端代替livy的Sagemaker笔记本到EMR火花源

python、pyspark、amazon-emr、amazon-sagemaker

我知道，关于如何通过SparkMagic预装的内核将Sagemaker笔记本连接到EMR集群上，有很好的教程，但是我们希望使用纱线-客户端模式(而不是livy )连接到集群，以便能够使用我们已经拥有的Sagemaker实例中的库和信任，这个想法是在巨大的数据集上运行python代码，获得摘要，并使用我们在sag产笔记本中已经拥有的大量python库和自定义内部库来完成摘要的分析任务，我一直在搜索，但

浏览 8提问于2022-06-13得票数 0

1回答

运行Spark的EMR笔记本-如何从私有github分支安装其他库

apache-spark、jupyter-notebook、amazon-emr

我想在EMR Notebook virtualenv中安装一个python库，就像在sc.install_pypi_package("arrow==0.14.0", "https://pypi.orgpython库并不是以pypi包的形式发布的，而是位于私有github存储库的自定义分支上。我如何才能参考git repo并为AWS EMR提供相关的git凭据才能正常工作？这个库是否也可用于Spark EMR集群(UDF函数</em

浏览 3提问于2020-01-01得票数 2

1回答

scala、apache-spark、pyspark、apache-spark-sql、amazon-emr

我想与我们的数据科学家在EMR集群中使用pyspark和jupyter的其他集群分享我在Scala中创建的udf。这个是可能的吗？多么?

浏览 10提问于2017-07-03得票数 2

1回答

Spark内核笔记本之间的集群共享

amazon-web-services、apache-spark、jupyter-notebook、amazon-emr、amazon-sagemaker

我希望从概念上理解在Spark内核(如SparkMagic)上运行的几个Jupyter笔记本如何共享一个工作节点集群。如果用户A在计算单元中持续或缓存了一个大的RDD (无论是在磁盘上还是在内存中)，然后出去度周末，但没有停止他/她的笔记本，这是否会降低其他用户在用户A的笔记本运行时运行其作业的能力？也就是说，共享集群的所有Spark notebooks将能够同时提交作业

浏览 20提问于2021-01-25得票数 1

1回答

如何定义Spark和驱动程序日志URL，使它们直接命中我的代理而不是火花主程序

apache-spark、nginx、jupyter-notebook、amazon-emr

环境：问题：从用户的角度来看，他们会点击jupyter笔记本中</em

浏览 1提问于2020-09-10得票数 1

2回答

使用AWS jupyter笔记本绘制Matplotlib

amazon-web-services、matplotlib、amazon-ec2、pyspark

我试图在AWS实例的jupyter笔记本中使用Matplotlib绘制数据。Matplotlib必须在实例启动时通过引导操作安装，这一点我已经成功地完成了。我也成功地用这种方式安装了Pandas (并将其用于笔记本中的各种东西)。典型的%matplotlib inline不工作。(事实上，在AWS笔记本上似乎没有神奇的命令。我怀疑AWS已经禁用了这些功能，或者这与笔记本的“无服务器”有关)。我试过：安装matplotlib==2.0.2并使用%m

浏览 0提问于2019-03-31得票数 4

1回答

为什么EMR笔记本在作为AWS帐户所有者运行时不能连接到其群集

amazon-emr

我已经使用默认设置创建了AWS EMR集群和笔记本。我查看了由笔记本失败的集群创建的日志文件。/gateway.log.gz中，我发现了以下内容： Jupyter Enterprise Gateway 2.1.0 is available at http:

浏览 17提问于2022-04-04得票数 6

回答已采纳

2回答

JupyterHub服务器无法在私有子网中运行的Terraformed EMR群集中启动

amazon-s3、terraform、amazon-emr、terraform-provider-aws、jupyterhub

我正在使用Terraform创建一个EMR集群(emr-5.24.0)，部署到一个私有子网，其中包括Spark、Hive和JupyterHub。我已经在部署中添加了额外的配置JSON，这应该会将Jupiter笔记本的持久性添加到S3中(而不是本地磁盘上)。整个架构包括一个连接到S3的VPC端点，并且我能够访问我试图将笔记本写入的存储桶。资源定义中，然后引用以下内容： configurations =

浏览 33提问于2019-06-26得票数 0

1回答

如何将变量从EMR集群传递到木星笔记本%%本地实例？

python、amazon-web-services、jupyter-notebook、jupyter、amazon-emr

当我使用%%local在托管木星笔记本实例上运行代码时，如何使用EMR集群的Python实例中定义的变量示例： ln[1]: parameter

浏览 0提问于2019-10-22得票数 1

回答已采纳

1回答

使用AWS Step函数编制作业的EMR

amazon-emr、aws-step-functions、aws-emr-studio

最近，亚马逊推出了，我想重新定位使用的现有数据管道编排:有一些步骤可以创建EMR集群、运行一些lambda函数、提交火花作业(大部分是Scala作业使用火花提交)，并最终终止集群。有些文档和github示例描述了从编排框架(如AirFlow )提交作业的情况，但没有描述如何在EMR中使用AWS函数。在这方面的任何帮助都将受到赞赏。首先，我感兴趣的是重新定义arn:aws:state

浏览 7提问于2022-06-10得票数 1

1回答

带有EMR和Jupyter笔记本的Postgres JAR

postgresql、amazon-web-services、jupyter-notebook、amazon-emr

我正在尝试启动一个包含Postgres驱动程序JAR文件的电子病历集群，这样我就可以从Postgres加载数据并使用PySpark进行分析。我将我想要包含的JAR存储在S3中。connection-user": "MYUSER", }, } ] 2-添加JAR作为自定义步骤(从S3中</em

浏览 13提问于2021-04-06得票数 2

回答已采纳

1回答

AWS数据管道EmrCluster的安全配置字段

amazon-web-services、amazon-emr、amazon-data-pipeline

我通过AWS管理控制台上的常规EMR集群向导创建了一个AWS集群，并且我能够选择一个安全配置，例如，当您导出CLI命令时，它是--security-configuration 'mySecurityConfigurationValue现在我需要通过AWS数据管道创建一个类似的EMR，但是我看不到任何选项可以指定这个安全配置字段。我已经在管道配置中填写了所有这些，但我只需要指定安全性配置。有什么想法吗？

浏览 0提问于2018-05-15得票数 1

回答已采纳

1回答

Azure Synapse -在笔记本中导入python脚本

azure、azure-devops、azure-pipelines、azure-synapse、azure-sqldw

Am使用Azure Synapse与jupyter笔记本相结合：我的许多jupyter笔记本都导入了一些自定义python脚本，比如util- import：但是，在中没有选项保存*.py通常，当我使用导入功能时，*.py被转换为笔记本(在笔记本电脑上它是util.py，在Synapse导入之后是一个笔记本)：如何在Azure笔记本中<

浏览 12提问于2022-11-30得票数 0

回答已采纳

3回答

AWS EMR火花1.0

amazon-web-services、apache-spark、emr

有没有办法强迫亚马逊EMR使用Spark1.0.1？当前可选择的版本停留在1.4.1。我在MLlib中使用交替的最小二乘实现，自v1.1以来，它们已经实现了加权正则化，并且出于特定的原因(研究研究)，我不希望这个实现，而是我试图访问他们在v1.0中实现的非加权正则化版本。我正在与Scala一起使用Zepplin笔记本，如果这有帮助的话。

浏览 5提问于2016-03-28得票数 0

回答已采纳

1回答

在Jupyter* Notebook中导入自定义函数*

jupyter-notebook、data-science

我正在尝试为数据科学项目重用一些常见的自定义函数。我将函数另存为.py文件，并在jupyter笔记本中调用它们。这些函数使用了一些模块，如seaborn、matplotlib，我已经在jupyter笔记本中导入了这些模块。然而，当我调用这个函数时，它抛出了一个错误，没有找到这些模块。这可能是一个非常基本的问题，但是有没有一种方法可以让函数看到已经导入到我的

浏览 47提问于2020-12-19得票数 1

1回答

由HBase支持的EMR读取副本无法通过Java连接

amazon-web-services、amazon-s3、hbase、amazon-emr、geomesa

问题介绍由于: org.apache.hadoop.hbase.NotServingRegionException: org.apache.hadoop.hbase.NotServingRegionException`我能够成功地连接读写集群.问题只

浏览 2提问于2020-03-27得票数 2

2回答

jupyter notebook的自定义css文件

jupyter、jupyterhub

我想在jupyterHub中为我的jupyter笔记本使用自定义的.css样式文件。我将custom.css文件放在~.jupyter/custom/custom.css和/opt/conda/lib/python3.6/site-packages/notebook/static/custom中，但它们都不起作用。你知道如何在使用Doc

浏览 2提问于2019-02-09得票数 1

1回答

AWS IAM用户角色或策略自包含

amazon-web-services、aws-sdk、amazon-iam

我想在IAM中创建一个用户，它基本上可以对该用户自己创建的资源执行任何操作(创建、修改、删除)。我有一种感觉，这可以在政策文件中的条件下实现，但不确定具体

浏览 5提问于2016-04-29得票数 2

1回答

EMR_EC2_DefaultRole和EMR_DefaultRole有什么不同？

amazon-web-services、amazon-emr

在aws emr启动后，我注意到它有一个ec2实例配置文件EMR_EC2_DefaultRole和一个emr角色EMR_DefaultRole，它们具有类似的权限，那么EMR_EC2_DefaultRole和EMR_DefaultRole之间有什么不同呢？

浏览 0提问于2019-01-10得票数 11

回答已采纳

2回答

如何在EMR上安装软件包

python、amazon-web-services、emr、amazon-emr

我在亚马逊网络服务上创建了一个集群，并安装了Jupyter和python3。现在我可以在单元格中输入代码，我发现安装了'numpy‘，即通过import numpy as np，我能够访问这个包中的函数。然而，我发现pandas不在那里。因此，在下一个单元格中，我输入了!af55e7023913> in <module>()----> 1 import pandas as pd ImportError: No module named 'pa

浏览 2提问于2017-04-14得票数 2

点击加载更多

用纱线客户端代替livy的Sagemaker笔记本到EMR火花源

运行Spark的EMR笔记本-如何从私有github分支安装其他库