腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
对
少于
N
个
分区
的
N
个
文件
的
磁盘
进行
spark
写入
、
我们可以写数据到100
个
文件
,每个
文件
有10
个
分区
吗? 我知道我们可以使用repartition或coalesce来减少
分区
数量。但我看到一些hadoop生成
的
avro数据
的
分区
数量远远超过了
文件
数量。
浏览 11
提问于2018-01-08
得票数 8
回答已采纳
1
回答
如何可靠地
写入
和恢复
分区
数据
我正在寻找一种方法来
写入
和恢复
分区
数据集。对于这个问题,我可以接受两
个
分区
的
RDD和Dataset[Row] / Dataframe这样做
的
目的是为了在恢复数据时避免混洗例如:
spark
.range(
浏览 0
提问于2016-10-06
得票数 2
1
回答
Apache火花-洗牌
写入
的
数据比输入数据
的
大小更多。
、
我在本地模式下使用
Spark
2.1,并运行这个简单
的
应用程序。val
N
= 10 << 20 sparkSession.conf.set("
spark
.sql.autoBroadcastJoinThresholdas k2") df1.join(df2, col("k1") === col(&
浏览 4
提问于2017-05-18
得票数 4
回答已采纳
1
回答
在保存到
分区
拼花
文件
时实现并发性
、
、
当使用dataframe向parquet
写入
partitionBy时:我期望所编写
的
每个
分区
都由一
个
单独
的
任务独立完成,并与分配到当前火花作业
的
工人数量并行。然而,实际上只有一
个
工人/任务运行时,一次写在地板上。一
个
工作人员正在循环遍历每个
分区
并依次写
浏览 0
提问于2018-06-26
得票数 5
回答已采纳
2
回答
将星火数据分割成
分区
,并并行地将这些
分区
写入
磁盘
。
、
、
、
问题概要:假设我在AWS中
的
EMR集群上使用
spark
处理了300+ GB
的
数据。该数据有三
个
属性,用于在Hive中对
文件
系统
进行
分区
:日期、时间和(比方说) anotherAttr。我将它们收集到驱动程序上
的
一
个
列表中,并
对
列表
进行
迭代,为每个组合构建一
个
新
的
DataFrame,使用行数来
对
DataFrame
进行
重新
分
浏览 0
提问于2020-05-09
得票数 0
回答已采纳
1
回答
Apache使用动态
分区
覆盖和S3委员会将Parquet
文件
写入
到S3
、
、
、
、
以
分区
Parquet
文件
的
形式将我
的
星火作业
的
结果
写入
S3。 除了最后一颗子弹外,我什么
浏览 33
提问于2022-01-17
得票数 2
6
回答
火花失效:引起: org.apache.
spark
.shuffle.FetchFailedException:太大
的
框架: 5454002341
、
、
我正在为确定父子表
的
表生成层次结构。下面是使用
的
配置,即使在收到与太大
的
帧有关
的
错误之后:--conf
spark
.yarn.executor.memoryOverhead=1024mb \import org.apache.
spark
.SparkContext; import org.apache.
spark
.sql.{DataFrame
浏览 3
提问于2018-07-11
得票数 8
1
回答
当
写入
和重读到parquet
文件
时保留数据
分区
。
、
当我将带有定义
分区
的
数据
文件
写入
磁盘
时,将其作为拼板
文件
,然后再次重新读取拼图
文件
,
分区
就会丢失。是否有一种方法可以在
写入
和重读过程中保留数据
的
原始
分区
?第二
个
数字在我看来也不错:我得到了100
个
*.parquet
文件
、100
个
*.parquet.crc
文件
和两
个
_SUCCESS
文件<
浏览 0
提问于2018-06-28
得票数 8
回答已采纳
1
回答
星星之火: DataFrameWriter必须是阻塞
的
步骤吗?
、
、
、
我已经用一
个
列(例如,id)对数据
进行
了
分区
,并将这个数据集保存在某个位置。不幸
的
是,似乎正在发生
的
事情是,在将任何东西
写入
磁盘
之前,
Spark
将我
的
所有id组处理成一
个
大任务(自然会泄漏到
磁盘
)。会变得很慢。我可以列出所有
分区
(ids),一
个
一
个
地加载它们,同时利用
分区
剪枝、重复和
写入
。但这似乎是多余
浏览 0
提问于2018-03-26
得票数 0
1
回答
块火花处理
文件
、
、
我想处理(从csv
文件
中)
的
数据块,然后在每个
分区
/块中
进行
一些分析。我如何做到这一点,然后以并行方式处理这些多个块?我想要运行地图和减少每块
浏览 5
提问于2017-02-23
得票数 1
2
回答
基于具有12
个
不同值
的
列
进行
分区
后,为什么我会获得更多
分区
、
、
、
df =
spark
.read.format().load(path) 注意: ColumnX有12
个
不同
的
值 print(df_partitioned.rdd.getNumPartitions
浏览 19
提问于2020-08-03
得票数 1
回答已采纳
2
回答
在HDFS上
进行
spark
存储和读取镶嵌
、
、
我正在写这段代码
spark
.conf.set("
spark
.sql.shuffle.partitions",outputData = inputData.sort($"colname")如果我想从HDFS中读取
文件
"outputFile“
的</em
浏览 1
提问于2016-11-04
得票数 3
2
回答
如何修正“超级块中
的
坏幻数”
、
、
、
我尝试将所有数据从一
个
SSD移动到另一
个
SSD。旧
的
SSD是500 GB,新
的
SSD是1000 GB。首先,我创建了一
个
备份:然后我尝试恢复备份: gunzip -c /media/ubuntu/local/backup1.img.gz | dd of=
浏览 0
提问于2022-12-11
得票数 2
1
回答
spark
:将有序数据保存到拼图
、
、
、
、
我有30TB
的
数据按日期和时间
分区
,每小时拆分为300
个
文件
。我
进行
了一些数据转换,然后希望按排序
的
顺序对数据
进行
排序并保存,以便于C++程序接收。我知道在序列化时,只有
文件
中
的
顺序是正确
的
。如果我在SessionID上
分区
,我会有太多,所以我做了一
个
模
N
来生成
N
个
存储桶,目标是获得大约100-200MB
的
1<
浏览 4
提问于2019-11-16
得票数 3
2
回答
连接大型和巨型
spark
数据帧
、
我尝试过
的
唯一不会出错
的
事情是将df1分解为300,000
个
行块,并在一
个
df2循环中与foreach连接。但这花费
的
时间可能比它应该花费
的
时间长一
个
数量级(可能是因为它太大了,不适合作为持久化,导致它重做拆分到那个点)。重新组合结果也需要一段时间。df1是df2
的
一
个
子集。df1=df2.where("fin<1").selectExpr(&
浏览 2
提问于2016-03-12
得票数 8
回答已采纳
2
回答
有效地让partitionBy
写入
与原始表相同
的
总
分区
数。
、
我被要求把它作为一
个
单独
的
问题发出来,所以这里是: 据我所知,df.partitionBy(COL)将把带有COL值
的
所有行
写入
自己
的
文件
夹,并且每个
文件
夹(假设行以前通过其他键分布在所有
分区
中)
的
文件
数量与整个表中
的
大致相同如果我有一
个
包含500
个
分区
的
大表,并且
对
一些属性列使用partitionBy(COL
浏览 0
提问于2018-06-09
得票数 38
回答已采纳
1
回答
使用加密设置
对
整个NVMe驱动器
进行
加密,会使它比跨
磁盘
的
分区
加密更努力,更快地失败吗?
我有几个非引导NVMe
磁盘
,其数据必须被加密。 我一直在
磁盘
上运行cryptsetup,而不对它们
进行
分区
,然后在devicemapper设备上创建一
个
文件
系统。我是否应该首先
对
这些
磁盘
进行
分区
(在整个
磁盘
上使用一
个
大
分区
)并在
分区
上运行cryptsetup?这些
磁盘
将严格地作为zpool
的
一部分,因此我认为没
浏览 0
提问于2020-10-01
得票数 0
回答已采纳
1
回答
文件
系统也使用块存储吗?
、
、
、
、
我对
文件
系统
的
实际内部运作感到困惑。问题是
文件
存储还是块存储。据我所知,不同之处在于我们访问数据
的
级别:
文件
级
的
文件
存储和块级
的
块存储。我
的
问题是:
文件
存储最终是否也将
文件
分割成块,并将其再次存储在单个块上?因此,真正
的
区别在于谁负责将这些块组合成
文件
?如果是块存储,这是由操作系统在该块服务器上完成
的
,如果是
文件
存储,则是在<e
浏览 0
提问于2021-12-13
得票数 1
3
回答
在
Spark
2.1.0中读取大
文件
时内存不足
、
、
、
、
我想使用
spark
将一
个
大型(51 it ) XML
文件
(在外部HDD上)读入一
个
数据
文件
(使用),执行简单
的
映射/过滤,重新排序,然后将它写回
磁盘
,作为一
个
CSV
文件
。--我想了解为什么不增加
分区
数,停止OOM错误 在读取和
写入
时(初始
浏览 7
提问于2017-05-05
得票数 8
1
回答
ec2如何向现有设备添加更多卷
、
、
devtmpfs 3.8G 44K 3.8G 1% /dev/dev/nvme0
n
1p1MOUNTPOINT├─nvme0
n
1p1 259:1 0 8G 0 part /
浏览 0
提问于2018-06-19
得票数 0
点击加载更多
相关
资讯
Excel–有一对多个匹配结果时,如何返回指定的第n个结果?
2025-03-06:给定一个长度为 n 的整数组 nums,其中 n 是偶数,同时还有一个整数 k。 你可以进行一些操作,每次
大数据之谜Spark基础篇,核心RDD特征分析讲解
Linux系统挂载硬盘详解
01 初识 Spark 你应该知道的
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券