腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
从
路径
存储
桶
中
读取
csv
文件
: AnalysisException:
S3
不存在
、
在
Google Colab
中
,我正在尝试让
PySpark
从
S3
存储
桶
中
读取
csv
。这是我的代码: # Read in data from
S3
Bucketsurl = "https://crypto-senti-nb.s3.amazonaws.com/filename.
浏览 32
提问于2021-10-15
得票数 0
1
回答
如何
从
S3
拼图中逐行
读取
文件
,逐行过滤并保存到另一个
S3
存储
桶
中
?
、
、
、
我有一个
存储
桶
,里面有几个拼花地板
文件
和数十亿条记录在
S3
存储
桶
中
。我只有
Pyspark
(胶水)环境可以做到这一点,所以
浏览 1
提问于2020-01-22
得票数 0
1
回答
如何
使用
pyspark
从
s3
存储
桶
中
读取
csv
文件
、
、
、
我
使用
的是Apache Spark 3.1.0和Python 3.9.6。我正在尝试
从
亚马逊网络服务的
S3
存储
桶
中
读取
csv
文件
,如下所示: spark = SparkSession.builder.getOrCreate() file = "
s3
://bucket/file.
csv
for scheme "
s3
" 我知道我
浏览 167
提问于2021-08-25
得票数 2
回答已采纳
1
回答
通过spark dataframe
读取
S3
文件
时,粘合书签不起作用
、
、
、
我有一个
存储
.gz
文件
(json格式)的
S3
存储
桶
。每小时将有更多的
文件
发送到此
存储
桶
。我想
使用
Glue增量地(每天)
从
S3
存储
桶
中
读取
数据,将.gz转换为拼接,然后写回另一个
S3
存储
桶
。我想我可以
使用
Glue书签来完成增量
文件
的
读
浏览 24
提问于2020-12-30
得票数 1
1
回答
用
pyspark
/python
在
AWS
S3
上列出目录
中
的
文件
、
、
因此,我对AWS、
S3
、
pyspark
和linux都很陌生。我不知道
从
哪里开始。以下是我的问题:aws
s3
ls '
s3
://datastore/L2/parquet'然而,
pyspark
和SQLCon
浏览 1
提问于2017-03-29
得票数 1
回答已采纳
1
回答
从
大的
s3
存储
桶
中
读取
电子病历
PySpark
结构化流花费的时间太长
、
、
、
、
我有一个两台计算机的EMR集群,安装了
从
s3
读取
数据的
PySpark
。代码是一个非常简单的过滤和转换操作,
使用
sqlContext.readStream.text
从
存储
桶
中
获取数据。该
存储
桶
大小约为10TB,由bucket/year/month/day/hour/*组织的大约75k个
文件
,其中*最多代表20个大小为128MB的<em
浏览 0
提问于2018-02-20
得票数 0
1
回答
如何
使用
Pyspark
从
s3
存储
桶
中
读取
csv
文件
(
在
macos
中
)?
、
我正在尝试
从
s3
存储
桶
中
读取
csv
df,但遇到了问题。你能让我知道我在哪里掩盖错误吗?jsc.hadoopConfiguration().set("fs.s3a.endpoint", "mybucket/path/fileeast-1.redshift.amazonaws.com") sc = SparkSession.build
浏览 18
提问于2020-04-11
得票数 0
2
回答
将亚马逊网络服务
S3
连接到数据库
PySpark
、
、
、
我正在尝试
使用
databricks
pyspark
连接和
读取
s3
存储
桶
中
的所有
csv
文件
。当我
使用
一些我有管理员访问权限的
存储
桶
时,它可以正常工作但是当我尝试连接到某个需要ACCESS_KEY_ID和SECRET_A
浏览 24
提问于2019-11-04
得票数 0
回答已采纳
1
回答
管理24 GB的
S3
文件
的理想群集大小是多少
、
、
、
、
我目前正在
使用
这个数据集
s3
://commoncrawl/crawl-001/2008/06/19/1/。它的大小是24
S3
,我正在尝试将其分离为文本/html请求,并将其保存在我的
S3
存储
桶
中
。代码一切正常,但当我试图将它保存到
存储
桶
中
时,我的记忆出现了问题: Reason: Container killed by YARN
浏览 15
提问于2021-09-08
得票数 0
回答已采纳
1
回答
AWS胶排除模式
、
、
、
我正在从事一个项目,该项目
使用
Glue 3.0 &
PySpark
处理
S3
桶
之间的大量数据。这是
使用
将数据
从
S3
桶
读取
到DynamicFrame的方法,
使用
recurse连接选项设置为True,因为数据是大量嵌套的。我只希望
读取
以meta.json结尾的
文件
,因此我已经将设置为排除以data.
csv
"exclusions": [
浏览 12
提问于2022-02-24
得票数 0
回答已采纳
1
回答
使用
Pyspark
从
s3
存储
桶
中
读取
最后一个
csv
文件
、
、
、
、
因此,我有一个
s3
存储
桶
(数据),其中有一个名为(First)的
文件
夹,其中包含多个
CSV
文件
,但我不知道该
文件
的名称,现在我想将该
文件
夹
中
的最新
文件
读取
到
pyspark
dataframe
中
。
浏览 15
提问于2021-09-16
得票数 0
1
回答
从
多个
S3
存储
桶
导入
pyspark
dataframe,其中有一列指示条目来自哪个
存储
桶
、
、
我有一个按日期分区的
S3
存储
桶
列表。第一个
存储
桶
标题为2019-12-1,第二个
存储
桶
标题为2019-12-2,依此类推。这些
存储
桶
中
的每一个都
存储
我正在
读取
到
pyspark
dataframe
中
的拼图
文件
。
从
每个
存储
桶
生成的
pyspark
datafram
浏览 13
提问于2019-12-16
得票数 0
回答已采纳
2
回答
在
Rails 4
中
使用
Roo
从
流
中
读取
CSV
文件
、
、
我在这里有另一个问题,,但我没有被咬到-所以重述一下: 我
在
S3
存储
桶
中有一个
CSV
文件
,我想在基于Heroku的应用程序中
使用
Roo
读取
它(即没有本地
文件
访问)
如何
从
流
中
打开
CSV
文件
?我
使用
的是Rails4,Ruby2。注意,如果我
从
表单
中
张贴,我可以成功地打开
CSV
进行
浏览 0
提问于2014-06-12
得票数 1
2
回答
java.io.IOException:不适用于方案:
s3
、
、
、
我正在尝试
读取
s3
桶
中
的数据,并且我正在
使用
jupyter笔记本。我已经
在
我的机器上安装了Spark,并通过导入findspark
在
jupyter中
使用
它findspark.init() 但是,当我试图<e
浏览 0
提问于2021-10-27
得票数 1
3
回答
从
亚马逊网络服务
S3
读取
数据
、
、
我有一些格式非常特殊的数据(例如,由NI系统生成的tdms
文件
),我将它们
存储
在
S3
存储
桶
中
。通常,如果数据
存储
在
我的本地计算机
中
,为了用python
读取
这些数据,我会
使用
npTDMS包。但是,当tdms
文件
存储
在
S3
存储
桶
中
时,应该
如何
<
浏览 22
提问于2019-12-21
得票数 0
回答已采纳
1
回答
从
亚马逊
s3
存储
桶
中
读取
csv
文件
时列数据类型发生变化
、
、
我有两列的
pyspark
dataframe,后来我
使用
withColumn函数添加了第三列,将当前日期添加到所有现有行。
s3
存储
桶
中
df.write.format("
csv
").option("header","true").option("delimiter",",").save("
s3
://location"
浏览 18
提问于2020-09-14
得票数 0
2
回答
有没有办法在运行AWS Glue ETL作业时
从
S3
存储
桶
中
读取
文件
名并命名输出
文件
名。
pyspark
提供了这样做的方法吗?
、
、
、
、
我正在通过从多个名为rawpart1.json和rawpart2.json的
S3
存储
桶
中
读取
json
文件
来运行AWS Glue ETL作业。验证两个
文件
中
的字段以及两个
S3
存储
桶
中
的
文件
名。我可以
读取
和更改
文件
名吗?ETL job运行后,
在
S3
存储
桶
浏览 19
提问于2020-06-09
得票数 1
1
回答
使用
Python DictReader
从
S3
中
读取
csv
文件
、
、
我希望编写Python代码,
从
S3
读取
csv
文件
,然后逐行遍历
文件
,并
使用
每行
中
的值。下面的示例来自realpython.org,我喜欢您
如何
使用
列标题名称选择行
中
的值,如行“部门”。我尝试对
从
S3
存储
桶
中
获得的
csv
文件
使用
csv
.Dic
浏览 14
提问于2019-04-25
得票数 0
3
回答
使用
pyarrow
从
s3
读取
csv
文件
、
、
我想要
读取
位于
s3
存储
桶
中
的
csv
文件
,
使用
pyarrow将其转换为镶木到另一个
存储
桶
。我在从
s3
读取
csv
文件
时遇到问题。我尝试
读取
以下代码,但failed.Does pyarrow支持
从
s3
读取
csv
?from pyarrow import
cs
浏览 19
提问于2019-12-24
得票数 2
2
回答
如何
指定
s3
的服务器端加密?
、
、
、
ec2 linux实例上
使用
ec2 2.2.0
从
ec2
存储
桶
中
读取
。Df=spark.read.option(“头”、“真”).
csv
(“S3A://bucket/
csv
_file”) 但是,
在
启用服务器端加密的情况下,我不得不将转换后的数据写回
s3
桶
。如下所料,操作抛出“访问拒绝”,因为我还没有指定标志,以便在
pyspark
执行env
中
浏览 7
提问于2017-08-02
得票数 4
回答已采纳
点击加载更多
相关
资讯
一个Python大数据处理利器:PySpark入门指南
PySpark,一个大数据处理利器的Python库!
CSV文件在Python中的几种处理方式
Python开源数据分析工具TOP 3!
AWS发布新服务Amazon S3 Storage Lens
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券