如何使用Pyspark从s3存储桶中读取csv文件(在macos中)？

文章/答案/技术大牛

发布

1回答

Pyspark从路径存储桶中读取csv文件: AnalysisException: S3不存在

、

在Google Colab中，我正在尝试让PySpark从S3存储桶中读取csv。这是我的代码： # Read in data from S3 Bucketsurl = "https://crypto-senti-nb.s3.amazonaws.com/filename.

浏览 32提问于2021-10-15得票数 0

1回答

如何从S3拼图中逐行读取文件，逐行过滤并保存到另一个S3存储桶中？

、、、

我有一个存储桶，里面有几个拼花地板文件和数十亿条记录在S3存储桶中。我只有Pyspark (胶水)环境可以做到这一点，所以

浏览 1提问于2020-01-22得票数 0

1回答

如何使用pyspark从s3存储桶中读取csv文件

、、、

我使用的是Apache Spark 3.1.0和Python 3.9.6。我正在尝试从亚马逊网络服务的S3存储桶中读取csv文件，如下所示： spark = SparkSession.builder.getOrCreate() file = "s3://bucket/file.csvfor scheme "s3" 我知道我

浏览 167提问于2021-08-25得票数 2

回答已采纳

1回答

通过spark dataframe读取S3文件时，粘合书签不起作用

、、、

我有一个存储.gz文件(json格式)的S3存储桶。每小时将有更多的文件发送到此存储桶。我想使用Glue增量地(每天)从S3存储桶中读取数据，将.gz转换为拼接，然后写回另一个S3存储桶。我想我可以使用Glue书签来完成增量文件的读

浏览 24提问于2020-12-30得票数 1

1回答

用pyspark/python在AWS S3上列出目录中的文件

、、

因此，我对AWS、S3、pyspark和linux都很陌生。我不知道从哪里开始。以下是我的问题：aws s3 ls 's3://datastore/L2/parquet'然而，pyspark和SQLCon

浏览 1提问于2017-03-29得票数 1

回答已采纳

1回答

从大的s3存储桶中读取电子病历PySpark结构化流花费的时间太长

、、、、

我有一个两台计算机的EMR集群，安装了从s3读取数据的PySpark。代码是一个非常简单的过滤和转换操作，使用sqlContext.readStream.text从存储桶中获取数据。该存储桶大小约为10TB，由bucket/year/month/day/hour/*组织的大约75k个文件，其中*最多代表20个大小为128MB的<em

浏览 0提问于2018-02-20得票数 0

1回答

、

我正在尝试从s3存储桶中读取csv df，但遇到了问题。你能让我知道我在哪里掩盖错误吗？jsc.hadoopConfiguration().set("fs.s3a.endpoint", "mybucket/path/fileeast-1.redshift.amazonaws.com") sc = SparkSession.build

浏览 18提问于2020-04-11得票数 0

2回答

将亚马逊网络服务S3连接到数据库PySpark

、、、

我正在尝试使用databricks pyspark连接和读取s3存储桶中的所有csv文件。当我使用一些我有管理员访问权限的存储桶时，它可以正常工作但是当我尝试连接到某个需要ACCESS_KEY_ID和SECRET_A

浏览 24提问于2019-11-04得票数 0

回答已采纳

1回答

管理24 GB的S3文件的理想群集大小是多少

、、、、

我目前正在使用这个数据集s3://commoncrawl/crawl-001/2008/06/19/1/。它的大小是24 S3，我正在尝试将其分离为文本/html请求，并将其保存在我的S3存储桶中。代码一切正常，但当我试图将它保存到存储桶中时，我的记忆出现了问题： Reason: Container killed by YARN

浏览 15提问于2021-09-08得票数 0

回答已采纳

1回答

AWS胶排除模式

、、、

我正在从事一个项目，该项目使用Glue 3.0 & PySpark处理S3桶之间的大量数据。这是使用将数据从S3桶读取到DynamicFrame的方法，使用recurse连接选项设置为True，因为数据是大量嵌套的。我只希望读取以meta.json结尾的文件，因此我已经将设置为排除以data.csv "exclusions": [&#x

浏览 12提问于2022-02-24得票数 0

回答已采纳

1回答

使用Pyspark从s3存储桶中读取最后一个csv文件

、、、、

因此，我有一个s3存储桶(数据)，其中有一个名为(First)的文件夹，其中包含多个CSV文件，但我不知道该文件的名称，现在我想将该文件夹中的最新文件读取到pyspark dataframe中。

浏览 15提问于2021-09-16得票数 0

1回答

从多个S3存储桶导入pyspark* dataframe，其中有一列指示条目来自哪个存储桶*

、、

我有一个按日期分区的S3存储桶列表。第一个存储桶标题为2019-12-1，第二个存储桶标题为2019-12-2，依此类推。这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark datafram

浏览 13提问于2019-12-16得票数 0

回答已采纳

2回答

在Rails 4中使用Roo从流中读取CSV文件

、、

我在这里有另一个问题，，但我没有被咬到-所以重述一下：我在S3存储桶中有一个CSV文件，我想在基于Heroku的应用程序中使用Roo读取它(即没有本地文件访问)如何从流中打开CSV文件？我使用的是Rails4，Ruby2。注意，如果我从表单中张贴，我可以成功地打开CSV进行

浏览 0提问于2014-06-12得票数 1

2回答

java.io.IOException:不适用于方案: s3

、、、

我正在尝试读取s3桶中的数据，并且我正在使用jupyter笔记本。我已经在我的机器上安装了Spark，并通过导入findspark在jupyter中使用它findspark.init() 但是，当我试图<e

浏览 0提问于2021-10-27得票数 1

3回答

从亚马逊网络服务S3读取数据

、、

我有一些格式非常特殊的数据(例如，由NI系统生成的tdms文件)，我将它们存储在S3存储桶中。通常，如果数据存储在我的本地计算机中，为了用python读取这些数据，我会使用npTDMS包。但是，当tdms文件存储在S3存储桶中时，应该如何<

浏览 22提问于2019-12-21得票数 0

回答已采纳

1回答

从亚马逊s3存储桶中读取csv文件时列数据类型发生变化

、、

我有两列的pyspark dataframe，后来我使用withColumn函数添加了第三列，将当前日期添加到所有现有行。s3存储桶中 df.write.format("csv").option("header"，"true").option("delimiter"，"，").save("s3://location"

浏览 18提问于2020-09-14得票数 0

2回答

有没有办法在运行AWS Glue ETL作业时从S3存储桶中读取文件名并命名输出文件名。pyspark提供了这样做的方法吗？

、、、、

我正在通过从多个名为rawpart1.json和rawpart2.json的S3存储桶中读取json文件来运行AWS Glue ETL作业。验证两个文件中的字段以及两个S3存储桶中的文件名。我可以读取和更改文件名吗？ETL job运行后，在S3存储桶

浏览 19提问于2020-06-09得票数 1

1回答

使用Python DictReader从S3中读取csv文件

、、

我希望编写Python代码，从S3读取csv文件，然后逐行遍历文件，并使用每行中的值。下面的示例来自realpython.org，我喜欢您如何使用列标题名称选择行中的值，如行“部门”。我尝试对从S3存储桶中获得的csv文件使用csv.Dic

浏览 14提问于2019-04-25得票数 0

3回答

使用pyarrow从s3读取csv文件

、、

我想要读取位于s3存储桶中的csv文件，使用pyarrow将其转换为镶木到另一个存储桶。我在从s3读取csv文件时遇到问题。我尝试读取以下代码，但failed.Does pyarrow支持从s3读取csv？from pyarrow import cs

浏览 19提问于2019-12-24得票数 2

2回答

如何指定s3的服务器端加密？

、、、

ec2 linux实例上使用ec2 2.2.0从ec2存储桶中读取。Df=spark.read.option(“头”、“真”).csv(“S3A://bucket/csv_file”) 但是，在启用服务器端加密的情况下，我不得不将转换后的数据写回s3桶。如下所料，操作抛出“访问拒绝”，因为我还没有指定标志，以便在pyspark执行env中

浏览 7提问于2017-08-02得票数 4

回答已采纳

点击加载更多

Pyspark从路径存储桶中读取csv文件: AnalysisException: S3不存在

如何从S3拼图中逐行读取文件，逐行过滤并保存到另一个S3存储桶中？

如何使用pyspark从s3存储桶中读取csv文件

通过spark dataframe读取S3文件时，粘合书签不起作用

用pyspark/python在AWS S3上列出目录中的文件

从大的s3存储桶中读取电子病历PySpark结构化流花费的时间太长

如何使用Pyspark从s3存储桶中读取csv文件(在macos中)？

将亚马逊网络服务S3连接到数据库PySpark

管理24 GB的S3文件的理想群集大小是多少

AWS胶排除模式

使用Pyspark从s3存储桶中读取最后一个csv文件

从多个S3存储桶导入pyspark* dataframe，其中有一列指示条目来自哪个存储桶*

在Rails 4中使用Roo从流中读取CSV文件

java.io.IOException:不适用于方案: s3

从亚马逊网络服务S3读取数据

从亚马逊s3存储桶中读取csv文件时列数据类型发生变化

有没有办法在运行AWS Glue ETL作业时从S3存储桶中读取文件名并命名输出文件名。pyspark提供了这样做的方法吗？

使用Python DictReader从S3中读取csv文件

使用pyarrow从s3读取csv文件

如何指定s3的服务器端加密？

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐