向Google Dataproc提交PySpark作业时从requirements.txt初始化虚拟环境

向Google Dataproc提交PySpark作业时，可以通过requirements.txt文件来初始化虚拟环境。requirements.txt是一个文本文件，用于列出项目所依赖的Python包及其版本。

虚拟环境是一个隔离的Python运行环境，可以在其中安装特定版本的包，以避免不同项目之间的包冲突。通过使用虚拟环境，可以确保作业在Google Dataproc上能够正确运行，并且能够满足所需的依赖关系。

以下是提交PySpark作业时从requirements.txt初始化虚拟环境的步骤：

创建一个包含PySpark作业代码和requirements.txt文件的项目目录。
在requirements.txt文件中列出项目所需的Python包及其版本，每行一个包，格式为"package==version"。例如：

pyspark==3.2.0
numpy==1.21.4
pandas==1.3.4

在PySpark作业代码中添加初始化虚拟环境的代码。可以使用--py-files参数将requirements.txt文件传递给作业，然后在作业代码中使用spark.submitPyFiles()方法来安装依赖包。示例代码如下：

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

# 安装依赖包
spark.submitPyFiles('requirements.txt')

# 导入依赖包
import numpy as np
import pandas as pd

提交PySpark作业到Google Dataproc。可以使用gcloud命令行工具或Google Cloud Console来提交作业。
在Google Dataproc上运行的作业将会自动安装requirements.txt中列出的依赖包，并使用其中指定的版本。

推荐的腾讯云相关产品：腾讯云弹性MapReduce（EMR），是一种大数据处理和分析的云计算服务。EMR提供了基于Hadoop和Spark的集群环境，可以方便地提交PySpark作业，并支持从requirements.txt初始化虚拟环境。详情请参考腾讯云EMR产品介绍：腾讯云弹性MapReduce（EMR）。

如何使PySpark在集群上工作

、、、

我有一系列问题(很抱歉，Google文档太糟糕了，而且不方便用户使用)：您可以将ssh放入头计算机并在整个集群中运行星火，还是使用Google的gcloud dataproc jobs submit ...命令？当我在本地运行Spark作业并尝试访问时，我这样做是没有问题的。当我尝试使用Dataproc时，

浏览 3提问于2019-01-18得票数 3

1回答

向Google Dataproc提交PySpark作业时从requirements.txt初始化虚拟环境

、、、

我想在默认情况下运行Python3的Dataproc集群中提交一个PySpark作业。我想用我拥有的虚拟环境来初始化环境。我尝试了两种方法，一种是压缩整个venv，并将其作为归档文件上传，然后提交到集群。但是我的工作是找不到依赖项。e.g --archives gs:/&

浏览 20提问于2020-05-08得票数 4

1回答

在DataProc上运行Spark时如何排队新作业

如何能够向Google (PySpark)提交多个作业，并将不适合当前执行器的作业排队？只有提交作业才不适用于排队，这里是下列任何作业的输出： ...但是，我找不到与dataproc一起使用它的文档.？

浏览 0提问于2016-04-08得票数 2

回答已采纳

1回答

我有一个问题，当我创建一个DataProc自定义图像和Pyspark。我的自定义镜像基于DataProc 1.4.1-debian9，并使用我的初始化脚本从一个requirements.txt文件安装python3和一些包，然后设置python3环境变量以强制pyspark但是，当我在使用此镜像创建的集群上提交作业时(为简单起见，使用单节点标志)，该作业找不到已安装的包。如果我登录集群机器并运行pyspark

浏览 23提问于2019-07-12得票数 7

回答已采纳

2回答

将Python项目提交到Dataproc作业

、、

script') \ return x+y 我想在GCP中作为Dataproc作业启动。我正在尝试使用以下命令启动脚本 gcloud dataproc jobs submit pyspark --cluster=$CLUSTER_NAME --region=$REGION \ run/script.py 但我收到以下错误消息： from lib.lib imp

浏览 27提问于2020-04-23得票数 4

2回答

为什么spark内容的默认并行度与vCPU的数量不同？

、、、、

我已经用下面的代码片段在Google Cloud Platform Dataproc中创建了一个集群： --project--master-boot-disk-type pd-ssd --master-boot-disk-size 100 \ --initialization-actions gs://goog-dataproc-initialization-actions我有一个PySpark</e

浏览 3提问于2020-05-26得票数 1

1回答

如何让PySpark在上工作

、、

我发现是非常有希望的托管Airflow服务，但我不知道如何使用Composer使用PySpark代码执行管道。我能够安装其他Python软件包，例如Pandas，并使用Composer。

浏览 1提问于2021-07-03得票数 1

回答已采纳

1回答

通过rest API使用--files启动dataproc作业

、

我可以通过命令行向dataproc提交作业。gcloud dataproc jobs submit pyspark --cluster=my_cluster --region=myregion --py-files file1.py script.py我想将此命令行转换为对rest api https://cloud.google.com/dataproc/docs/guides/submit

浏览 16提问于2020-04-23得票数 3

回答已采纳

2回答

传递gcloud dataproc作业提交pyspark的属性参数

、、、

我正在尝试通过命令行向google cloud dataproc提交一个pyspark作业，这些是我的论点； gcloud dataproc jobs submit pyspark --cluster

浏览 15提问于2017-12-18得票数 0

回答已采纳

3回答

是否可以使用Google* Dataproc上的初始化脚本向集群提交作业？*

、

我在1个集群上使用1个作业的Dataproc。我希望在创建群集后立即开始我的作业。我发现实现这一点的最佳方法是使用如下所示的初始化脚本提交作业。gcloud dataproc jobs submit pyspark ...export -f submit_job echo "checkinggcloud dataproc clusters list --re

浏览 54提问于2021-09-03得票数 3

回答已采纳

1回答

如何在本地木星笔记本的Dataproc中使用考拉

、、、、

通过查看Google文档，我能够向Dataproc集群提交Spark作业，并在集群中安装JupyterLab，以便在笔记本上运行迭代操作。但是，我无法找到使用DataProc集群资源从本地木星笔记本(在我的计算机上)运行迭代命令的正确配置。我特别感兴趣的是从本地JupyterLab创建集群，然后使用pySpark (考拉)对托管在BigQuery和GCS上的大型数据文件执行一系列操作。我的目标是在本地JupyerLab中使用D

浏览 3提问于2022-01-11得票数 2

2回答

如何以编程方式检测到他的代码正在Google* Cloud上运行？*

、、

我正在尝试调整当前在本地Hadoop集群上运行的Spark作业。我想修改它，让它继续支持在本地运行，并在谷歌云上运行。以确定代码是否在云中运行： def run_on_gcp(): return is_defined(os.env["ENVIRONMENT_VARIABLE"]) 我想知道什么是始终定义在谷歌云上并且可以从Dataproc

浏览 10提问于2019-02-16得票数 1

4回答

如何在谷歌的dataproc火花公子上运行python3

、、、、

我想通过Google平台dataproc运行一个pyspark作业，但是我不知道如何设置pyspark来运行python3，而不是默认的2.7。我能找到的最好的方法就是添加这些(a) python命令仍然是python2， ],} api = build(

浏览 0提问于2017-08-23得票数 9

回答已采纳

1回答

在NodeJS上获取Pyspark作业输出

、、、

我成功地提交了一个Pyspark作业，我想输出作业的结果。我从以下代码中获得了工作的结果： const output = await storage .file( `jobs/

浏览 19提问于2020-04-11得票数 1

1回答

如何从google* cloud function调用google *dataproc作业

、、、、

每当有新文件上传到云存储存储桶时，都会触发云函数。此函数应调用用pyspark编写的dataproc作业，以读取文件并将其加载到BigQuery。我想知道如何从云函数调用google dataproc作业。请提个建议。

浏览 2提问于2018-05-10得票数 2

1回答

从.egg而不是.py运行.egg作业

、、

我正在尝试使用PySpark运行一个作业。与所有示例相比，唯一不同的是，我希望提交来自.egg的工作，而不是.py文件。为了在常规商品集群中提交PySpark作业，如下所示： --driver-memory 20g \ 值得一提的是，当我尝试使用P

浏览 0提问于2018-11-09得票数 2

回答已采纳

1回答

如何在Dataproc中增加并发作业的最大数量？

我需要在Dataproc集群中运行数百个并发作业，每个作业都是非常轻量级的(例如，获取表元数据的Hive查询)，不需要占用太多资源。但是似乎有一些未知的因素限制了最大并发作业数。

浏览 22提问于2021-09-09得票数 0

1回答

无法在GCP上的dataproc集群中导入pyspark

、、

我只是在Google平台上安装了一个集群来运行一些火花缭乱的作业。最初，我使用ipython.sh (来自github存储库)作为集群的初始化脚本。这使得集群能够很好地启动，但是当试图在Ipython笔记本中导入pyspark时，我得到了一个“无法导入名称累加器”错误。检查日志“dataproc-初始化-脚本-0_output”，它简单地说：你知道我在这里错过了什么吗？编辑：

浏览 2提问于2016-09-19得票数 1

1回答

通过气流提交给Dataproc的失败蜂巢作业的日志链接

、、、、

我使用气流的向Dataproc集群提交了一个Hive作业。当某些作业在googlec头->dataproc->作业中失败时，我可以看到一个指向带failure的日志的链接：代理报告作业失败。如果日志可用，可以在'gs://dataproc-abcde12-efghi23-jklmn12-uk/google-cloud-dataproc<

浏览 1提问于2019-02-12得票数 3

4回答

使用Airflow _DataProcJob挂钩禁用dataproc中的附加作业

、、

我使用通过airflow在GCP dataproc中运行作业。在每个作业执行之前，使用检查该作业是否可以附加到以前执行的作业的钩子。附加作业时，除非我删除前一个(附加的)作业，否则dataprock不会执行该作业有什么方法可以禁用附件吗？of states that we will accept as sufficient # for attaching the new t

浏览 1提问于2020-06-03得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

向Google Dataproc提交PySpark作业时从requirements.txt初始化虚拟环境

相关·内容

如何使PySpark在集群上工作

向Google Dataproc提交PySpark作业时从requirements.txt初始化虚拟环境

在DataProc上运行Spark时如何排队新作业

GCP Dataproc自定义图像Python环境

将Python项目提交到Dataproc作业

为什么spark内容的默认并行度与vCPU的数量不同？

如何让PySpark在上工作

通过rest API使用--files启动dataproc作业

传递gcloud dataproc作业提交pyspark的属性参数

是否可以使用Google* Dataproc上的初始化脚本向集群提交作业？*

如何在本地木星笔记本的Dataproc中使用考拉

如何以编程方式检测到他的代码正在Google* Cloud上运行？*

如何在谷歌的dataproc火花公子上运行python3

在NodeJS上获取Pyspark作业输出

如何从google* cloud function调用google *dataproc作业

从.egg而不是.py运行.egg作业

如何在Dataproc中增加并发作业的最大数量？

无法在GCP上的dataproc集群中导入pyspark

通过气流提交给Dataproc的失败蜂巢作业的日志链接

使用Airflow _DataProcJob挂钩禁用dataproc中的附加作业

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐