无法使用本地PySpark从S3读取json文件

文章/答案/技术大牛

发布

2回答

、、

我正尝试在本地使用PySpark从S3读取json文件。以下是代码 import os from pyspark.sql import SparkSession : com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 403

浏览 13提问于2021-07-11得票数 0

回答已采纳

2回答

PySpark:如何加快sqlContext.read.json的速度？

、、

我正在使用下面的pyspark代码从s3桶中读取数千个JSON文件sqlContext = SQLContext(sc)这需要大量时间来读取和解析JSON文

浏览 1提问于2018-06-20得票数 2

1回答

在本地运行Pyspark以访问S3错误中的拼花文件：“无法从链中的任何提供者加载AWS凭据”

、、、、

我正在尝试通过Pycharm访问在S3桶中可用的parquet文件，使用Pyspark。这会引发错误“无法从链中的任何提供程序加载AWS凭据”。import osfrom pyspark.sql import SparkSession 是否有其他方法在本地试用Pysp

浏览 1提问于2020-09-04得票数 0

3回答

我使用的是PyCharm 2018.1，使用的是Python3.4，其中的Spark2.3是通过pip安装在一个虚拟环境中的。本地主机上没有安装hadoop，因此没有Spark安装(因此没有SPARK_HOME、HADOOP_HOME等)。")inputFile = sparkContext.textFile("s3://somebucket/file.csv") 我得到了：如果没有在本地</

浏览 0提问于2018-05-05得票数 4

回答已采纳

1回答

如何从datafram列中的路径读取AWS上pyspark中的多个Json文件？

、、

我需要使用pypark读取一堆Json文件，S3上的文件路径在我有的一个数据帧中。如何在一个pyspark脚本中读取所有这些文件？|id|S3Location |a|s3://path1/path6/yyy.json.gz| |b

浏览 2提问于2020-03-10得票数 0

1回答

AWS Glue无法读取JSON* Snappy文件*

、、、

我在PySpark中读取AWS Glue作业的数据时遇到问题：火花遗物Da

浏览 1提问于2020-06-11得票数 4

回答已采纳

2回答

如何读取电火花中s3上的表格数据？

、、、、

在s3目录s3://mybucket/my/directory/中有一些选项卡分隔的数据。现在，我要告诉pyspark，我想使用\t作为分隔符，只在下面这样的一个文件中读取： from pyspark.sql import://mybucket/my/directory/onefile.

浏览 3提问于2017-07-17得票数 1

回答已采纳

2回答

火花数据并行读取

、

当使用吡火花时，您可以在sc.textFile方法中设置减少的数量，这样您就可以更快地从S3中读取一个文件，就像解释的一样。这很好，但从Spark1.3开始，我们也可以开始使用DataFrames。我正在尝试将它们从S3加载到一个星火集群(它是通过创建的)。基本上，我试图让这段代码对非常大的“data.json”文件快速运行：fro

浏览 5提问于2015-05-01得票数 0

回答已采纳

2回答

Livy在120秒内未找到带有标记livy-batch-10-hg3po7kp的纱线应用程序

、、、

使用Livy通过从电子病历启动的POST请求执行存储在S3中的脚本。脚本会运行，但很快就会超时。我尝试过编辑livy.conf配置，但似乎所有更改都没有生效。

浏览 3提问于2018-11-29得票数 3

1回答

通过spark dataframe读取S3文件时，粘合书签不起作用

、、、

我有一个存储.gz文件(json格式)的S3存储桶。每小时将有更多的文件发送到此存储桶。我想使用Glue增量地(每天)从S3存储桶中读取数据，将.gz转换为拼接，然后写回另一个S3存储桶。我想我可以使用Glue书签来完成增量文件的读取/转换/写入。然而，我发现如果我读取spark dataframe中的.gz文件，书签就不起作

浏览 24提问于2020-12-30得票数 1

1回答

PySpark挂起S3读取

、、、、

我想用S3 (本地安装，而不是电子病历)从PySpark读取文件。问题是它在读取时冻结，没有任何超时或错误。版本：JAR文件直接放在SPARK_HOME/jars目录中，因此我不需要在这里单独指定它们我的PySpark代码： from pyspark.sql import SparkSess

浏览 10提问于2022-01-11得票数 0

回答已采纳

1回答

如何连接s3文件而不访问密钥详细信息

、、、

我们有一台unix机器，可以直接访问我们的s3桶。我们能够从unix机器上运行所有cli命令，比如"aws s3 ls“。现在，我们需要从那里读取一个文件，并使用pyspark创建一个星火数据框架。因此，现在需要对unix框进行ssh连接，并读取该文件并创建星火数据框架。有没有人能帮助我们如何访问s3而不用使用pyspark访问关键细节。

浏览 2提问于2022-10-19得票数 0

1回答

从s3桶将文件写入本地后返回状态

、、

尝试从s3桶中获取文件并将其存储在本地，一旦它写入本地，从本地读取文件并将数据转换为json格式并发送。我需要检查文件是否下载并写入本地，一旦文件存在，只需读取并将其转换为json，否则发送错误消息。一旦文件打开，我正在写文件并结束。因此，在结束后，我无法发送返回值。因此，

浏览 0提问于2018-11-27得票数 1

回答已采纳

1回答

用PySpark读取Cloudera项目中的文件

、、、

我的Cloudera项目中有一个文件位于"/home/cdsw/npi.json“之下。我尝试使用以下命令从我的“本地”CDSW项目中读取PySpark，但无法使用以下任何命令。npi = sc.read.format("json").load("file:///home/cdsw/npi.

浏览 2提问于2018-10-30得票数 0

回答已采纳

1回答

无法读取HDF5文件在S3中出现在sagemaker笔记本的实例中

、、

我的目录结构如下所示：bucket-name/training/file.hdf5bucket='bucket-name'data_location = 's3://{}/{}'.format(bucket, data_key) hf = h5py.File(data_location,

浏览 8提问于2021-12-27得票数 0

1回答

AWS作业create_dynamic_frame_from_options()打开特定的文件？

、、、

如果使用create_dynamic_frame_from_catalog()，则提供数据库名称和表名，例如，从Glue爬虫中创建，这实际上是命名特定的输入文件。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入文件)。我尝试过使用create_dynamic_frame_from_options()，但“路径”连接选项显然不允许我命名该文件。有办法这样做吗？

浏览 1提问于2020-07-15得票数 1

2回答

来自S3的amazon emr spark提交不起作用

、、、、

唯一的问题是我不能让它离开S3。cluster-id j-XXXXX --steps Type=spark,Name=SomeSparkApp,Args=[--deploy-mode,cluster,--executor-memory,0.5g,s3java.lang.IllegalArgumentException: Unknown/unsupported param List(--executor-memory, 0.5g, --executor-cores, 2, --primary-py-file, s3emr add-s

浏览 0提问于2016-07-05得票数 3

2回答

有没有办法在运行AWS Glue ETL作业时从S3存储桶中读取文件名并命名输出文件名。pyspark提供了这样做的方法吗？

、、、、

我正在通过从多个名为rawpart1.json和rawpart2.json的S3存储桶中读取json文件来运行AWS Glue ETL作业。验证两个文件中的字段以及两个S3存储桶中的文件名。我可以读取和更改文件名吗？ETL job运行后，在S3存储桶中为ETL job的输出创建文件名。目前我得到的文件名是run-15902070851728-pa

浏览 19提问于2020-06-09得票数 1

1回答

当尝试从FileSystem读取带有火花的文件列表时，方案"s3“不使用EC2

、、、、

我试图提供一个文件列表，以便在需要的时候读取这些文件(这就是为什么我不希望使用boto或其他任何方法将所有文件预下载到实例中，然后才将它们读入spark“本地”)。os.environ['PYSPARK_SUBMIT_ARGS'] = "--master local[3] pyspark-shell" spark = SparkSession.builder.getOrCreates3:

浏览 9提问于2022-02-27得票数 0

1回答

AWS胶水中的pyspark跳过错误文件

、

我正在使用AWS Glue中的pyspark来读取ETL100K S3文件，但是，我没有读取数十个文件的权限。我使用了以下代码： datasource0 = glueContext.create_dynamic_frame_from_options("s3", {'paths': ["s3://mykkkk-testCaused by: j

浏览 7提问于2020-03-23得票数 2

点击加载更多