腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
pyspark
中一
次
读取
多个
拼图
文件
、
、
我有
多个
按id分类的
拼图
文件
,如下所示: /user/desktop/id=1x/year=2020/month=8/day=12/file1.parquet /user/desktop/id=2x=4x/year=2020/month=8/day=22/file4.parquet 我有一个包含所有id值的python列表,如下所示: id_list = ['1x','2
浏览 28
提问于2020-09-24
得票数 1
回答已采纳
1
回答
如何从
多个
目录中
读取
多个
.parquet
文件
到单个pandas数据帧中?
、
我需要从
多个
目录中
读取
拼图
文件
。.parquet .parquet 有没有办法将这些
文件
读取
到单个注意:所有的
拼图
文件
都是使用
pyspark
生成的。
浏览 87
提问于2020-01-15
得票数 3
回答已采纳
2
回答
对于1-2列,
多个
镶嵌块
文件
具有不同的数据类型
、
、
、
我尝试使用
Pyspark
将不同的
拼图
文件
读取
到一个数据帧中,但它给了我错误,因为
多个
拼图
文件
中的一些列具有不同数据类型的列。例如:列"geo“
在
某些
文件
中的数据类型为"Double”,
在
另一些
文件
中为"String“。 我应该如何处理这个问题?我必须在
多个
拼图
文件
中手动转换具有不同数据类型的每一列吗?
浏览 12
提问于2021-11-22
得票数 0
1
回答
为什么我不能使用"cat file1.parket file2. parquet > result.parquet“来合并
多个
拼图
文件
?
、
、
我已经使用
pyspark
创建了
多个
拼图
文件
,现在我正在尝试将所有的
拼图
文件
合并为1。我可以合并这些
文件
,但在
读取
结果
文件
时,我得到了一个错误。以前有没有人遇到过这个问题?
浏览 35
提问于2020-11-08
得票数 2
回答已采纳
1
回答
在
一个列表中存储
多个
pysparks数据帧?
、
、
如何在一个列表中存储
多个
数据帧? 我有一个函数可以
读取
文件
夹中的
多个
拼图
文件
。但是,我需要创建一个列表,其中包含正在
读取
以执行其他进程的数据帧。预期的结果如下所示: dfs = df1、df2、df3、df4、dfn 注意:我正在使用
pyspark
数据帧 谢谢!
浏览 8
提问于2021-07-15
得票数 0
2
回答
读取
PySpark
中的所有分区
拼图
文件
、
、
、
我想要加载存储
在
S3 AWS
文件
夹结构中的所有
拼图
文件
。
文件
夹结构如下:<code>D0</code>这在
PySpa
浏览 70
提问于2019-12-04
得票数 0
1
回答
在
pyspark
中,Inferschema将列检测为字符串,而不是parquet中的双精度
、
问题-我正在使用azure databricks
在
pyspark
中
读取
拼图
文件
。有一些列有很多空值并且有十进制值,这些列被
读取
为字符串而不是双精度。有没有办法推断出
pyspark
中正确的数据类型?代码- 要
读取
拼花面板
文件
- df_raw_data = sqlContext.read.parquet(data_filename[5:]) 它的输出是一个包含100多列的数据帧,其中大多数列都是doubleP.S -我有一个可以有动态列的
浏览 16
提问于2020-06-23
得票数 0
2
回答
有没有可能从python/pandas并行写入到Parquet中?
、
、
Parquet
文件
格式允许数据分区。还有一个非常新的项目fastparquet,它提供了python实现。问题是,如果我
在
两个单独的python进程中有两个具有相同模式的数据帧,是否有可能将它们并行存储
在
parquet
文件
的两个单独的分区中?
浏览 0
提问于2017-03-04
得票数 1
1
回答
雪花不扣除拼花中的按列分区
、
推断模式函数
在
拼图
文件
上执行得非常好,并返回正确的数据类型。但是,当对
拼图
文件
进行分区并将其存储
在
S3中时,推断模式的功能与
pyspark
数据帧不同。
在
DataFrames中,分区
文件
夹名和值被
读取
为最后一列;
在
Snowflake推断模式中,有没有办法实现同样的结果? @GregPavlik -输入为结构化
拼图
格式。然而,如果
拼图
文件</
浏览 0
提问于2021-10-21
得票数 5
1
回答
PySpark
拼花数据类型
、
我使用
PySpark
读取
一个相对较大的csv
文件
(~10 to ):所有列都有数据类型string。例如,
在
更改column_a的数据类型后,我可以看到数据类型已更改为integer。如果我将ddf写到一个
拼图
文件
中,并
读取
这个
拼图
文件
,我会注意到所有的列都有数据类型string。问题:如何确保拼花
文件<
浏览 4
提问于2018-06-01
得票数 0
1
回答
dask
读取
拼图
并指定模式
、
、
、
、
在读入
拼图
文件
时,有没有dask等同于spark指定模式的能力?可能使用传递给pyarrow的kwargs?import dask.dataframe
浏览 0
提问于2021-04-01
得票数 4
1
回答
使用本地
Pyspark
从GCS打开镶木
、
、
我
在
谷歌云存储上有一个
文件
夹,里面有几个
拼图
文件
。我安装在我的VM
pyspark
中,现在我想
读取
拼图
文件
。下面是我的代码: from
pyspark
.sql import SparkSession .builder\ .getOrCreate() sc = spark.sparkConte
浏览 26
提问于2019-12-11
得票数 0
1
回答
使用
pyspark
并发编写
拼图
文件
、
、
、
在
Azure Databricks中,我想使用python /
pyspark
从
多个
笔记本同时写入相同的
拼图
文件
集。我对目标
文件
进行了分区,因此分区是分离的/独立写入的,这在databricks docs中是受支持的。然而,我一直
在
集群日志中得到一个错误,并且其
中一
个并发写操作失败: Py4JJavaError: An error occurred while calling o1033.save. : org.apache.spa
浏览 47
提问于2021-07-26
得票数 1
1
回答
使用AWS Glue ETL python spark (
pyspark
)将
多个
拼图
文件
合并到单个
拼图
文件
中的亚马逊S3
、
、
、
我每15分钟运行一
次
AWS Glue ETL Job,每次
在
S3中生成1个
拼图
文件
。我需要创建另一个作业来运行每小时结束,以合并所有4个
拼图
文件
在
S3到一个单一的
拼图
文件
使用AWS胶水ETL
pyspark
代码。 有人试过吗?建议和最佳实践? 提前感谢!
浏览 12
提问于2020-03-24
得票数 1
1
回答
快速拼接:如何禁用rle编码
、
、
、
我正在使用files parquet将pandas数据帧转换为parquet
文件
。这比我之前使用
pyspark
的方法要快得多。Unsupported encoding: RLE 有没有办法
在
使用快速拼接write方法时禁用RLE?
浏览 4
提问于2017-05-11
得票数 1
1
回答
追加到
拼图
文件
的EMR Spark步骤正在覆盖
拼图
文件
、
、
、
在
使用Python 3.6的Amazon EMR集群(1个主服务器,2个节点)上运行Spark 2.4.2 我正在
读取
亚马逊s3中的对象,以
拼图
格式压缩它们,并将它们添加(附加)到现有的
拼图
数据存储中。当我
在
pyspark
shell中运行我的代码时,我能够
读取
/压缩对象并将新的
拼图
文件
添加到现有的
拼图
文件
中,并且,当我对
拼图
数据运行查询时,它显示所有数据都在
拼图
浏览 17
提问于2019-07-10
得票数 1
回答已采纳
2
回答
如何阅读由Spark编写的
PySpark
拼花?
、
、
、
、
我正在使用两个Jupyter笔记本
在
分析中做不同的事情。
在
我的Scala笔记本中,我将一些清理过的数据写到了parquet中:然后,我转到我的Python笔记本中
读取
数据: df = sp
浏览 0
提问于2017-03-24
得票数 32
1
回答
在
s3
pyspark
作业中创建单个地块
文件
、
、
我已经写了一个
pyspark
程序,它从cassandra
读取
数据,并将数据写入aws s3。
在
写入
拼图
之前,我必须重新划分(1)或合并(1),因为这会创建一个单独的
文件
,否则它会在s3中创建
多个
s3
文件
。有什么方法可以
在
不影响性能的情况下在s3中创建单个
文件
?
浏览 0
提问于2020-12-09
得票数 0
1
回答
无法
读取
拼图
文件
,出现Gzip代码失败错误
、
、
、
、
我正在尝试转换拼花到csv
文件
与pyarrow。上面的代码可以很好地处理从github下载的示例
拼图
文件
。pyarrow.lib.ArrowIOError: Arrow error: IOError: GZipCodec failed: incorrect header check 我也尝试过使用have parquet和
pyspark
来
读取
拼图
文件
。我知道这是压缩或未压缩的
浏览 17
提问于2018-08-14
得票数 0
1
回答
如何在
读取
之前根据定义的模式
读取
pyspark
中的
拼图
文件
?
、
我正在从
pyspark
中的s3存储桶中
读取
镶木地板
文件
。有一些地块
文件
具有不同的模式,这会导致作业错误。我想通过预定义的模式和火花作业应该只
读取
与预定义的scehma匹配的
文件
。data = spark.read.parquet(*path_list) 上面的parquet spark read命令是批量
读取
文件
。如何能够只
读取
传递预定义模式的
拼图
文件
,并且只
读取
那些与所传递的模式
浏览 21
提问于2021-01-12
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
重命名一万个文件需要多久?如何在macOS中一次重命名多个文件
一个Python大数据处理利器:PySpark入门指南
pyspark 安装
如何在CDH集群上部署Python3运行环境及运行Python作业
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券