腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
如何将
数据
帧
中
的
数据
写入
HDFS
中
的
单个
.
parquet
文件
(
包括
单个
文件
中
的
数据
和
元
数据
)?
、
、
、
、
如何将
数据
帧
中
的
数据
写入
HDFS
中
的
单个
.
parquet
文件
(
包括
单个
文件
中
的
数据
和
元
数据
)?", format="
parquet
") 如果我使用上面的命令
浏览 20
提问于2017-03-15
得票数 6
3
回答
在独立星火上合并拼花
文件
、
有没有一种简单
的
方法可以将DataFrame保存到
单个
parquet
文件
中
,或者将包含
元
数据
的
目录
和
sqlContext.saveAsParquetFile()生成
的
parquet
文件
的
部分合并到一个存储在NFS上
的
文件
中
,而无需使用
HDFS
和
hadoop?
浏览 3
提问于2015-08-31
得票数 2
回答已采纳
1
回答
如何在PySpark中将
Parquet
文件
编写为来自Dataframe
的
输出时,如何在
HDFS
中
创建元
数据
文件
?
、
、
、
我有一个火花转换程序,它读取2个
Parquet
文件
,并创建一个最终
的
Dataframe,然后
写入
HDFS
中
另一个目录
中
的
Parquet
文件
。是否有方法在
HDFS
中
的
同一个目录
中
创建
Parquet
的
元
数据
/架构
文件
? 我们需要这个
元
浏览 2
提问于2020-05-09
得票数 1
回答已采纳
1
回答
删除spark-structured-streaming
写入
的
损坏拼接
文件
时会丢失
数据
吗?
、
、
、
我使用spark-structured-streaming作为消费者从kafka获取
数据
,按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html然后将
数据
保存到
hdfs
作为拼图
文件
。这是我
的
问题:程序运行良好,但一些容器很少失败(但它确实发生了),导致了一些损坏
的
拼接
文件
。它将导致错误,如不是拼图
浏览 20
提问于2019-05-25
得票数 0
1
回答
插入
Parquet
文件
生成512 MB
文件
。如何生成1GB
文件
?
、
、
我正在测试
Parquet
文件
格式并使用Impala外部表将
数据
插入到
Parquet
文件
中
。下面是可能影响
Parquet
文件
大小
的
参数集:
PARQUET
_COMPRESSION_CODEC: none我使用下面的insert语句
写入
Parquet
文件
。whe
浏览 2
提问于2014-09-17
得票数 2
回答已采纳
1
回答
如何将
数据
帧
中
的
数据
写入
单个
.
parquet
文件
(
单个
文件
中
的
数据
和
元
数据
)到亚马逊S3?
、
我正在尝试根据S3
的
某个键(按名称分区)将DF
写入
单个
拼图
文件
中
。我
的
要求是每次运行都要将
数据
附加到相同
的
parquet
文件
中
。这是我使用
的
代码,但这段代码为该
文件
夹
中
的
每个名称创建了
文件
夹,以便每次运行其创建新
的
拼图
文件
。但是,我
的
要求是
写入</e
浏览 15
提问于2019-03-01
得票数 0
5
回答
读取地块
文件
时刷新Dataframe
的
元
数据
、
、
、
我正在尝试将拼图
文件
作为
数据
帧
读取,它将定期更新(路径为/folder_name。每当有新
数据
到来时,旧
的
地块
文件
路径(/folder_name)将被重命名为临时路径,然后我们合并新
数据
和
旧
数据
并将其存储在旧路径(/folder_name)
中
。发生
的
情况是,假设我们在更新之前有一个拼图
文件
作为
hdfs
://fold
浏览 1
提问于2019-11-08
得票数 4
1
回答
是什么决定了
parquet
文件
缓冲区
的
大小?
、
、
、
我用火花壳编写了一个DataFrame到
hdfs
中
,得到了下面的输出。我想要了解
的
是,是什么决定了正在编写
的
拼花
文件
的
大小?我
的
dfs.block.size设置为:res1: String= 134217728 这是128 my,那么为什么我
的
文件
在20,000,000字节
浏览 1
提问于2018-11-13
得票数 1
回答已采纳
2
回答
如何从hadoopish
文件
夹加载拼花
文件
、
、
、
、
如果我用Java以这种方式保存
数据
帧
,.:.然后就会以一种草率
的
方式保存它(一个包含大量
文件
的
文件
夹)。是否可以将
数据
帧
保存为
单个
文件
?我试过collect(),但没有用。如果这是不可能
的
,那么我
的
问题是如何更改Python代码,以便从df.writ
浏览 4
提问于2017-05-21
得票数 0
回答已采纳
1
回答
HDFS
& Spark -重写大
文件
的
一部分
、
如何重写部分大
文件
(1TB以上)? 我将
数据
存储在拼图
文件
中
,它们按最大块大小拆分。有没有可能更新一些记录并只重写那些块而不重写。
浏览 17
提问于2019-01-14
得票数 0
1
回答
更改spark _temporary目录路径,避免删除parquets
、
、
当两个或多个Spark作业具有相同
的
输出目录时,相互删除
文件
将不可避免。我正在使用spark 2.4.4在append模式下
写入
一个
数据
帧
,我想在spark
的
tmp目录
中
添加一个时间戳,以避免这些删除。示例:使用其他
数据
调用相同
的
spark作
浏览 20
提问于2020-03-19
得票数 1
3
回答
随着分区
的
增加,spark拼接
写入
变慢
、
、
我有一个火花流应用程序,从流
写入
拼花
数据
。(Config.eventsS3Path) 这段代码每小时运行一次,但是随着时间
的
推移,写到
parquet
的
速度变慢了。刚开始
的
时候,
写入
数据
需要15分钟,现在需要40分钟。对于该路径
中
存在
数据
,这需要一定
的
时间。我尝试在一个新
的
位置运行相同
的
应用程序,运行速度很快。我已经禁用了schemaMerge
和
汇
浏览 3
提问于2016-09-16
得票数 15
1
回答
Spark :如何过滤列并执行操作,最终将所有列
写入
文件
?
、
我正在将一个
文件
读入包含许多列
和
行
的
数据
帧
中
,但我对
单个
列执行我
的
操作(重新分区、过滤等)感兴趣,所以我计划过滤不需要
的
列,但当我将最终
数据
帧
写入
另一个输出
文件
时,我如何才能
包括
所有被过滤掉
的
列?我正在读取所有输入路径,如下所示: val inputDF = spark.read.
parquet
(path).s
浏览 1
提问于2019-07-28
得票数 0
1
回答
如何取消在另一个
数据
帧
之上创建
的
缓存
数据
帧
的
持久化
、
如何取消在另一个
数据
帧
之上创建
的
缓存
数据
帧
的
持久化在将最终df保存到
hd
浏览 0
提问于2020-12-25
得票数 0
回答已采纳
2
回答
如何将
火花流应用程序
的
输出
写入
单个
文件
、
、
、
、
我正在使用星火流读取Kafka
的
数据
,并将其传递到py
文件
进行预测。它返回预测以及原始
数据
。它将原始
数据
与其预测保存到
文件
中
,但是它正在为每个RDD创建一个
文件
。我需要一个单一
的
文件
,
包括
收集
的
所有
数据
,直到我停止程序被保存到一个
文件
。 我尝试过writeStream,它甚至没有创建一个
文件
。我尝试过使用附加
文件</em
浏览 5
提问于2019-08-19
得票数 2
回答已采纳
1
回答
将Mapreduce作业
的
Reducer输出
写入
单个
文件
、
、
我已经为HBase
中
的
数据
编写了一个map-reduce作业。它包含多个映射器
和
一个reducer。Reducer方法接收从映射器提供
的
数据
,并对其进行一些分析。在完成对HBase中所有
数据
的
处理后,我想通过
单个
Reducer将
数据
写回
HDFS
中
的
一个
文件
。目前,我可以在每次获得新
的
数据
时将
数据</em
浏览 2
提问于2013-07-11
得票数 1
回答已采纳
1
回答
hadoop/
hdfs
中
的
默认存储
文件
格式
、
、
我正在建立一个新
的
hadoop集群(这个阶段是实验性
的
)。我希望对其进行配置,以便每当将
文件
复制到集群(通过copyFromLocal或使用sqoop等)时,hadoop/
hdfs
应该以拼板
文件
格式存储
数据
。 这件事我期待
的
对吗?有可能吗?我认为应该有一个
hdfs
级别的配置参数,在那里我可以指定在存储
数据
时使用哪种格式,但不知怎么找不到。想知道我是不是漏掉了什么东西。
浏览 2
提问于2015-11-06
得票数 1
回答已采纳
8
回答
如何从
parquet
文件
中
获取架构/列名?
、
、
、
我在
HDFS
中有一个
文件
存储为part-m-00000.gz.
parquet
我尝试过运行
hdfs
dfs -text dir/part-m-00000.gz.
parquet
,但是它是压缩
的
,所以我运行了gunzip part-m-00000.gz.
parquet
,但是它不解压缩
文件
,因为它不识别.
parquet
扩展名。如何获得此
文件
的
架构/列名?
浏览 4
提问于2015-11-24
得票数 48
回答已采纳
2
回答
如果
HDFS
主要用于对象存储,为什么要将ORC格式引入
HDFS
、
、
众所周知,
HDFS
基本上是一个对象存储系统,其中
数据
一旦
写入
就无法更新,但整个
文件
必须作为一个整体被覆盖。如果是这样,那么在
HDFS
中
引入ORC格式
的
需要是什么,它允许我们修改/更新存储在其底层存储系统为
HDFS
的
hive表
中
的
数据
。这使得
HDFS
成为
数据
块存储,其中
的
数据
可以更新/修改,这
浏览 23
提问于2021-05-18
得票数 1
1
回答
Spark write.avro创建单独
的
avro
文件
、
我编写了一个火花提交作业,它读取json文档
的
目录,使用
数据
帧
对它们进行一些处理,然后
写入
out目录。但是,出于某种原因,当我使用df.save或df.write方法时,它会创建单独
的
avro、
parquet
或json
文件
。事实上,我甚至使用了saveAsTable方法,它对蜂窝仓库
中
的
parquet
.gz
文件
也做了同样
的
事情。 在我看来,这是低效
的
,并且否定了容
浏览 2
提问于2016-06-30
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券