首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >spark临时文件较大问题处理

spark临时文件较大问题处理

作者头像
用户4128047
发布2025-12-23 16:42:05
发布2025-12-23 16:42:05
430
举报

最近使用spark对ods明细表数据进行清洗,由于清洗的表数据量较大,加上集群只有5个节点,磁盘使用率也上去了,导致每次跑spark任务时,都会产生很多临时文件,是由于内存使用完了,就会把临时数据存到磁盘,导致磁盘使用率超过80%以上,spark任务就会报错,具体报错如下:

代码语言:javascript
复制
java.io.IOException: No space left on device
java.io.FileNotFoundException: /hadoop/yarn/local/usercache/root/appcache/application_1694660329536_0016/blockmgr-081bea52-e592-4759-8d20-023ae4d85cfa/23/shuffle_0_2193_0.data.1b8c66cc-b32f-46c3-9213-410972743ea4 (No space left on device)

解决方法: 修改yarn的存储路径: YARN NodeManager Local directories 挂载到磁盘比较大的路径下: 如挂载盘在home目录下,可以使用如下路径:

代码语言:javascript
复制
/home/hadoop/yarn/local
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-09-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档