腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
无法
使用
本地
PySpark
从
S3
读取
json
文件
、
、
我正尝试在
本地
使用
PySpark
从
S3
读取
json
文件
。以下是代码 import os from
pyspark
.sql import SparkSession : com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 403
浏览 13
提问于2021-07-11
得票数 0
回答已采纳
2
回答
PySpark
:如何加快sqlContext.read.
json
的速度?
、
、
我正在
使用
下面的
pyspark
代码
从
s3
桶中
读取
数千个
JSON
文件
sqlContext = SQLContext(sc)这需要大量时间来
读取
和解析
JSON
文
浏览 1
提问于2018-06-20
得票数 2
1
回答
在
本地
运行
Pyspark
以访问
S3
错误中的拼花
文件
:“
无法
从
链中的任何提供者加载AWS凭据”
、
、
、
、
我正在尝试通过Pycharm访问在
S3
桶中可用的parquet
文件
,
使用
Pyspark
。这会引发错误“
无法
从
链中的任何提供程序加载AWS凭据”。import osfrom
pyspark
.sql import SparkSession 是否有其他方法在
本地
试用
Pysp
浏览 1
提问于2020-09-04
得票数 0
3
回答
如何在
本地
模式下运行的
pyspark
中
读取
S3
?
、
、
、
我
使用
的是PyCharm 2018.1,
使用
的是Python3.4,其中的Spark2.3是通过pip安装在一个虚拟环境中的。
本地
主机上没有安装hadoop,因此没有Spark安装(因此没有SPARK_HOME、HADOOP_HOME等)。")inputFile = sparkContext.textFile("
s3
://somebucket/file.csv") 我得到了:如果没有在
本地</
浏览 0
提问于2018-05-05
得票数 4
回答已采纳
1
回答
如何
从
datafram列中的路径
读取
AWS上
pyspark
中的多个
Json
文件
?
、
、
我需要
使用
pypark
读取
一堆
Json
文件
,
S3
上的
文件
路径在我有的一个数据帧中。如何在一个
pyspark
脚本中
读取
所有这些
文件
?|id|S3Location |a|
s3
://path1/path6/yyy.
json
.gz| |b
浏览 2
提问于2020-03-10
得票数 0
1
回答
AWS Glue
无法
读取
JSON
Snappy
文件
、
、
、
我在
PySpark
中
读取
AWS Glue作业的数据时遇到问题:火花遗物Da
浏览 1
提问于2020-06-11
得票数 4
回答已采纳
2
回答
如何
读取
电火花中
s3
上的表格数据?
、
、
、
、
在
s3
目录
s3
://mybucket/my/directory/中有一些选项卡分隔的数据。现在,我要告诉
pyspark
,我想
使用
\t作为分隔符,只在下面这样的一个
文件
中
读取
: from
pyspark
.sql import://mybucket/my/directory/onefile.
浏览 3
提问于2017-07-17
得票数 1
回答已采纳
2
回答
火花数据并行
读取
、
当
使用
吡火花时,您可以在sc.textFile方法中设置减少的数量,这样您就可以更快地
从
S3
中
读取
一个
文件
,就像解释的一样。这很好,但从Spark1.3开始,我们也可以开始
使用
DataFrames。我正在尝试将它们
从
S3
加载到一个星火集群(它是通过创建的)。基本上,我试图让这段代码对非常大的“data.
json
”
文件
快速运行:fro
浏览 5
提问于2015-05-01
得票数 0
回答已采纳
2
回答
Livy在120秒内未找到带有标记livy-batch-10-hg3po7kp的纱线应用程序
、
、
、
使用
Livy通过从电子病历启动的POST请求执行存储在
S3
中的脚本。脚本会运行,但很快就会超时。我尝试过编辑livy.conf配置,但似乎所有更改都没有生效。
浏览 3
提问于2018-11-29
得票数 3
1
回答
通过spark dataframe
读取
S3
文件
时,粘合书签不起作用
、
、
、
我有一个存储.gz
文件
(
json
格式)的
S3
存储桶。每小时将有更多的
文件
发送到此存储桶。我想
使用
Glue增量地(每天)
从
S3
存储桶中
读取
数据,将.gz转换为拼接,然后写回另一个
S3
存储桶。我想我可以
使用
Glue书签来完成增量
文件
的
读取
/转换/写入。然而,我发现如果我
读取
spark dataframe中的.gz
文件
,书签就不起作
浏览 24
提问于2020-12-30
得票数 1
1
回答
PySpark
挂起
S3
读取
、
、
、
、
我想用
S3
(
本地
安装,而不是电子病历)
从
PySpark
读取
文件
。问题是它在
读取
时冻结,没有任何超时或错误。版本:JAR
文件
直接放在SPARK_HOME/jars目录中,因此我不需要在这里单独指定它们我的
PySpark
代码: from
pyspark
.sql import SparkSess
浏览 10
提问于2022-01-11
得票数 0
回答已采纳
1
回答
如何连接
s3
文件
而不访问密钥详细信息
、
、
、
我们有一台unix机器,可以直接访问我们的
s3
桶。我们能够
从
unix机器上运行所有cli命令,比如"aws
s3
ls“。现在,我们需要从那里
读取
一个
文件
,并
使用
pyspark
创建一个星火数据框架。因此,现在需要对unix框进行ssh连接,并
读取
该
文件
并创建星火数据框架。 有没有人能帮助我们如何访问
s3
而不用
使用
pyspark
访问关键细节。
浏览 2
提问于2022-10-19
得票数 0
1
回答
从
s3
桶将
文件
写入
本地
后返回状态
、
、
尝试
从
s3
桶中获取
文件
并将其存储在
本地
,一旦它写入
本地
,
从
本地
读取
文件
并将数据转换为
json
格式并发送。我需要检查
文件
是否下载并写入
本地
,一旦
文件
存在,只需
读取
并将其转换为
json
,否则发送错误消息。 一旦
文件
打开,我正在写
文件
并结束。因此,在结束后,我
无法
发送返回值。因此,
浏览 0
提问于2018-11-27
得票数 1
回答已采纳
1
回答
用
PySpark
读取
Cloudera项目中的
文件
、
、
、
我的Cloudera项目中有一个
文件
位于"/home/cdsw/npi.
json
“之下。我尝试
使用
以下命令
从
我的“
本地
”CDSW项目中
读取
PySpark
,但
无法
使用
以下任何命令。npi = sc.read.format("
json
").load("file:///home/cdsw/npi.
浏览 2
提问于2018-10-30
得票数 0
回答已采纳
1
回答
无法
读取
HDF5
文件
在
S3
中出现在sagemaker笔记本的实例中
、
、
我的目录结构如下所示:bucket-name/training/file.hdf5bucket='bucket-name'data_location = '
s3
://{}/{}'.format(bucket, data_key) hf = h5py.File(data_location,
浏览 8
提问于2021-12-27
得票数 0
1
回答
AWS作业create_dynamic_frame_from_options()打开特定的
文件
?
、
、
、
如果
使用
create_dynamic_frame_from_catalog(),则提供数据库名称和表名,例如,
从
Glue爬虫中创建,这实际上是命名特定的输入
文件
。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入
文件
)。我尝试过
使用
create_dynamic_frame_from_options(),但“路径”连接选项显然不允许我命名该
文件
。有办法这样做吗?
浏览 1
提问于2020-07-15
得票数 1
2
回答
来自
S3
的amazon emr spark提交不起作用
、
、
、
、
唯一的问题是我不能让它离开
S3
。cluster-id j-XXXXX --steps Type=spark,Name=SomeSparkApp,Args=[--deploy-mode,cluster,--executor-memory,0.5g,
s3
java.lang.IllegalArgumentException: Unknown/unsupported param List(--executor-memory, 0.5g, --executor-cores, 2, --primary-py-file,
s3
emr add-s
浏览 0
提问于2016-07-05
得票数 3
2
回答
有没有办法在运行AWS Glue ETL作业时
从
S3
存储桶中
读取
文件
名并命名输出
文件
名。
pyspark
提供了这样做的方法吗?
、
、
、
、
我正在通过从多个名为rawpart1.
json
和rawpart2.
json
的
S3
存储桶中
读取
json
文件
来运行AWS Glue ETL作业。验证两个
文件
中的字段以及两个
S3
存储桶中的
文件
名。我可以
读取
和更改
文件
名吗?ETL job运行后,在
S3
存储桶中为ETL job的输出创建
文件
名。目前我得到的
文件
名是run-15902070851728-pa
浏览 19
提问于2020-06-09
得票数 1
1
回答
当尝试
从
FileSystem
读取
带有火花的
文件
列表时,方案"
s3
“不
使用
EC2
、
、
、
、
我试图提供一个
文件
列表,以便在需要的时候
读取
这些
文件
(这就是为什么我不希望
使用
boto或其他任何方法将所有
文件
预下载到实例中,然后才将它们读入spark“
本地
”)。os.environ['
PYSPARK
_SUBMIT_ARGS'] = "--master local[3]
pyspark
-shell" spark = SparkSession.builder.getOrCreate
s3
:
浏览 9
提问于2022-02-27
得票数 0
1
回答
AWS胶水中的
pyspark
跳过错误
文件
、
我正在
使用
AWS Glue中的
pyspark
来
读取
ETL100K
S3
文件
,但是,我没有
读取
数十个
文件
的权限。我
使用
了以下代码: datasource0 = glueContext.create_dynamic_frame_from_options("
s3
", {'paths': ["
s3
://mykkkk-testCaused by: j
浏览 7
提问于2020-03-23
得票数 2
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券