前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >0678-6.2.0-如何在CDH中使用HDFS分层存储

0678-6.2.0-如何在CDH中使用HDFS分层存储

作者头像
Fayson
发布于 2019-07-30 02:25:19
发布于 2019-07-30 02:25:19
1.5K036
代码可运行
举报
文章被收录于专栏:Hadoop实操Hadoop实操
运行总次数:36
代码可运行

文档编写目的

在前面的文章中,Fayson介绍过什么是HDFS分层存储,参考《6.2.0-什么是HDFS分层存储》。这个功能很早CDH就支持了,本文基于CDH6.2实际演示如何在CDH中使用HDFS分层存储。

  • 测试环境:

1.RedHat7.4

2.CDH6.2

配置并使用HDFS分层存储

在CM上修改DataNode数据目录,将六块SSD盘设置为SSD,另外十六块盘,六块设置为ARCHIVE,十块设置为DISK

1.测试使用SSD存储,执行wordcount

未提交作业前磁盘空间的容量

设置提交wordcount任务的HDFS数据目录的策略为ALL_SSD

执行生成数据的脚本,生成1TB测试数据

生成数据后查看磁盘,只有SSD容量增长了

提交wordcount任务

wordcount任务完成后查看磁盘,由于wordcount在执行过程中产生的中间数据落磁盘的目录未指定存储策略,所以默认使用hot策略,因此造成DISK存储的目录数据量有增长

2.测试使用ARCHIVE存储,执行sort

未提交作业前磁盘空间的容量

设置提交sort任务的HDFS数据目录的策略为cold

执行生成数据的脚本,生成1TB测试数据

生成数据后查看磁盘,只有ARCHIVE类型的磁盘容量增长了

提交sort任务

sort任务完成后查看磁盘,由于sort在执行过程中产生的中间数据落磁盘的目录未指定存储策略,所以默认使用hot策略,因此造成除了ARCHIVE存储的目录增长了之外,DISK存储的目录数据量也有增长

3.测试使用DISK存储,执行terasort

未提交作业前磁盘空间的容量

设置提交terasort任务的HDFS数据目录的策略为hot

执行生成数据的脚本,生成1TB测试数据

生成数据后查看磁盘,只有DISK存储的目录数据增长了

提交terasort任务

terasort任务完成后查看磁盘,发现只有DISK存储的目录数据增长了

总结

1.可以在CM上对HDFS的数据目录进行配置,配置上每块盘的存储类型,然后在使用HDFS时,对相应的HDFS指定存储策略,这样就可以让指定的数据存储到对应存储类型的磁盘,实现HDFS的分层存储。

2.在使用HDFS分层存储时需要注意对数据的分配,对于使用频繁的数据,可以存放在SSD上,对于归档的数据可以存放到ARCHIVE类型的磁盘,对于一些常用的基本数据可以存放在DISK类型的磁盘,对数据进行合理的分配,可以让所有磁盘的性能得到最好的发挥,同时可以获得最高的性价比。

Fayson的github: https://github.com/fayson/cdhproject

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
python与anaconda安装(先安装了python后安装anaconda,基于python已存在的基础上安装anaconda)——逼死强迫症、超详解[通俗易懂]
这里直接去python官网就可以了,网址是:https://www.python.org 打开后可以见到如图1:
全栈程序员站长
2022/09/06
30.4K0
python与anaconda安装(先安装了python后安装anaconda,基于python已存在的基础上安装anaconda)——逼死强迫症、超详解[通俗易懂]
Anaconda入门详解
Anaconda是一个免费开源的Python和R语言的发行版本,用于计算科学(数据科学、机器学习、大数据处理和预测分析),Anaconda致力于简化包管理和部署。Anaconda的包使用软件包管理系统Conda进行管理。超过1200万人使用Anaconda发行版本,并且Anaconda拥有超过1400个适用于Windows、Linux和MacOS的数据科学软件包。
py3study
2020/01/03
1.8K0
Anaconda详细安装使用教程
简单来说,Anaconda是Python的包管理器和环境管理器。先来解决一个初学者都会问的问题:我已经安装了Python,那么为什么还需要Anaconda呢?原因有以下几点:
周小董
2019/03/25
35K0
Anaconda详细安装使用教程
Jupyter Notebook中配置多版本Python
最新 Anaconda 中,默认安装 Python 3.8.3,因为某些原因需要使用 Python 3.7
yiyun
2022/04/01
5K0
Jupyter Notebook中配置多版本Python
pycharm+anaconda安装教程_anaconda配置pycharm
Anaconda最大的优势我认为在于可以做环境管理,可以通过创建不同的环境,安装不同的包。
全栈程序员站长
2022/09/27
1.4K0
pycharm+anaconda安装教程_anaconda配置pycharm
Python虚拟环境(pipenv、venv、conda一网打尽)[通俗易懂]
要搞清楚什么是虚拟环境,首先要清楚Python的环境指的是什么。当我们在执行python test.py时,思考如下问题:
全栈程序员站长
2022/09/27
51K0
Python虚拟环境(pipenv、venv、conda一网打尽)[通俗易懂]
Python环境配置保姆教程(Anaconda、Jupyter、GPU环境)!
1. 写在前面 搞算法的同学也都明白,一个比较完美的python环境是多么的重要。这篇文章打算把一些必备的python环境配置过程记录下来,这样不管是新到了公司实习或者就职,还是新换了电脑,都可以借鉴这篇快速把环境搭建起来啦 😉 由于我也是重装了系统,所以算是从0开始搭建python环境,这次从anaconda安装开始, 然后到cuda的相关安装配置,再到cudnn的安装配置,然后从anaconda中建立虚拟tensorflow和pytorch的虚拟环境,再各自的虚拟环境里面安装jupyter noteb
Datawhale
2021/10/13
4K0
Python环境配置保姆教程(Anaconda、Jupyter、GPU环境)!
anaconda+pycharm安装教程_如何在pycharm中配置anaconda
主要参考网址: 1、 http://www.jianshu.com/p/169403f7e40c 2、 http://blog.csdn.net/qq_29883591/article/details/52664478
全栈程序员站长
2022/09/27
9350
anaconda+pycharm安装教程_如何在pycharm中配置anaconda
Anaconda简介、安装、环境设置
Anaconda 是一个包含数据科学常用包的发行版本。它基于 conda(一个包和环境管理器) 衍生而来。应用程序 conda 是包和环境管理器:
菲宇
2019/08/14
3.2K0
anaconda安装-超详细版[通俗易懂]
大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说anaconda安装-超详细版[通俗易懂],希望能够帮助大家进步!!!
Java架构师必看
2022/10/04
5K0
anaconda安装-超详细版[通俗易懂]
Anaconda使用总结
1、Anaconda简介2、Anaconda安装(Linux和Windows)3、Conda的包管理与环境管理
用户7886150
2021/01/26
9220
Anaconda中安装多版本Python及切换
在安装Anaconda时顺带安装了自带python3.7的,想要安装python2.7,参考步骤如下:
孙小北
2024/01/30
1.9K0
Conda简单教程
Conda是Python中用于管理包和虚拟环境的一大利器。 使用Conda可以非常便利的使用数据科学相关的包,Conda可以帮助我们创建虚拟环境,从而方便的应用于多个项目中。
编程随笔
2021/07/23
1.1K0
Anaconda使用详解:从安装到高效管理Python环境
Anaconda是一款开源的Python和R语言的发行版本,其主要目的是为数据科学、机器学习、大数据处理和科学计算提供一个集成的开发环境。Anaconda集成了大量常用的数据科学库和工具,并附带了强大的环境管理和包管理功能,使得Python环境的配置和维护变得简单高效。本文将详细介绍Anaconda的安装、使用以及如何利用它来高效管理Python环境和包。
CoderJia
2024/10/18
9970
Anaconda使用详解:从安装到高效管理Python环境
win10安装anaconda3、pycharm和pytorch教程
博主研究生生涯准备用大一的旧电脑在撑两年,于是乎在虚拟机centos环境中安装python环境和pycharm工作时特别卡。于是想尝试在windows下安装anaconda和PyCharm,这样软件运行或许能流畅些。本文基于2019年发行的anaconda3版本和PyCharm对安装过程中的问题进行记录。
全栈程序员站长
2022/09/27
1.5K0
win10安装anaconda3、pycharm和pytorch教程
pycharm中使用anaconda部署python环境_pycharm怎么用anaconda的环境
每一种语言的开发环境都是包含了运行环境和开源包两个核心内容。比如Java,JDK是运行环境,而开发导入需要用到的各种第三方工具都是以开源包的形式导入的。再比如Python, python 3.6/ python 2.7是它的运行环境,而pynum,pandas这些数据处理工具就是也是开源包。 通常情况下,我们都是使用IDE在项目中统一管理运行环境和开源包。比如开发JavaWeb项目我们使用Myeclipse或者IntelliJ IDEA来管理项目的Java版本以及开源包。不过,当需要在同一机器上安装不同版本的软件包及其依赖,并能够在不同环境之间切换时,这样的管理方式就带来了很多不便。Conda的出现能够很好的解决这样的问题。Conda是一个开源的包和环境管理器,可以用于在同一机器上安装不同版本的软件及其依赖,并能够在不同的环境之间切换。
全栈程序员站长
2022/09/27
1.4K0
pycharm中使用anaconda部署python环境_pycharm怎么用anaconda的环境
Anaconda, Python, Jupyter和PyCharm介绍
Python 是一种易于学习又功能强大的编程语言。优雅的语法和动态类型,以及解释型语言的本质,使其成为在很多领域多数平台上写脚本和快速开发应用的理想语言。Python 官网 https://www.python.org/ 可以免费自由地下载并分享包括第三方 Python 模块、程序、工具等,以及额外的文档。
zhangjiqun
2024/12/14
4090
Anaconda, Python, Jupyter和PyCharm介绍
pycharm环境变量配置Anaconda_phpstorm怎么配置环境
安装的时候一路 next 就行了,如果想避免获取管理员权限和手动添加环境变量的麻烦,以下两个地方可以分别选择 Just Me 和 Add Anaconda to my PATH environment variable。
全栈程序员站长
2022/09/26
1.3K0
pycharm环境变量配置Anaconda_phpstorm怎么配置环境
Windows下anaconda装python2.7和3.5
本机已安装python 3.5 和 Anaconda3,但项目需要python 2.7环境
week
2018/08/24
1.4K0
Windows下anaconda装python2.7和3.5
Anaconda–Pycharm安装教程[通俗易懂]
因为不想每次下载安装的时候都要去找博客,干脆就参考别人的博客,把自己需要的写下来了。
全栈程序员站长
2022/09/27
1.3K0
Anaconda–Pycharm安装教程[通俗易懂]
推荐阅读
相关推荐
python与anaconda安装(先安装了python后安装anaconda,基于python已存在的基础上安装anaconda)——逼死强迫症、超详解[通俗易懂]
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验