Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >0678-6.2.0-如何在CDH中使用HDFS分层存储

0678-6.2.0-如何在CDH中使用HDFS分层存储

作者头像
Fayson
发布于 2019-07-30 02:25:19
发布于 2019-07-30 02:25:19
1.5K0
举报
文章被收录于专栏:Hadoop实操Hadoop实操

文档编写目的

在前面的文章中,Fayson介绍过什么是HDFS分层存储,参考《6.2.0-什么是HDFS分层存储》。这个功能很早CDH就支持了,本文基于CDH6.2实际演示如何在CDH中使用HDFS分层存储。

  • 测试环境:

1.RedHat7.4

2.CDH6.2

配置并使用HDFS分层存储

在CM上修改DataNode数据目录,将六块SSD盘设置为SSD,另外十六块盘,六块设置为ARCHIVE,十块设置为DISK

1.测试使用SSD存储,执行wordcount

未提交作业前磁盘空间的容量

设置提交wordcount任务的HDFS数据目录的策略为ALL_SSD

执行生成数据的脚本,生成1TB测试数据

生成数据后查看磁盘,只有SSD容量增长了

提交wordcount任务

wordcount任务完成后查看磁盘,由于wordcount在执行过程中产生的中间数据落磁盘的目录未指定存储策略,所以默认使用hot策略,因此造成DISK存储的目录数据量有增长

2.测试使用ARCHIVE存储,执行sort

未提交作业前磁盘空间的容量

设置提交sort任务的HDFS数据目录的策略为cold

执行生成数据的脚本,生成1TB测试数据

生成数据后查看磁盘,只有ARCHIVE类型的磁盘容量增长了

提交sort任务

sort任务完成后查看磁盘,由于sort在执行过程中产生的中间数据落磁盘的目录未指定存储策略,所以默认使用hot策略,因此造成除了ARCHIVE存储的目录增长了之外,DISK存储的目录数据量也有增长

3.测试使用DISK存储,执行terasort

未提交作业前磁盘空间的容量

设置提交terasort任务的HDFS数据目录的策略为hot

执行生成数据的脚本,生成1TB测试数据

生成数据后查看磁盘,只有DISK存储的目录数据增长了

提交terasort任务

terasort任务完成后查看磁盘,发现只有DISK存储的目录数据增长了

总结

1.可以在CM上对HDFS的数据目录进行配置,配置上每块盘的存储类型,然后在使用HDFS时,对相应的HDFS指定存储策略,这样就可以让指定的数据存储到对应存储类型的磁盘,实现HDFS的分层存储。

2.在使用HDFS分层存储时需要注意对数据的分配,对于使用频繁的数据,可以存放在SSD上,对于归档的数据可以存放到ARCHIVE类型的磁盘,对于一些常用的基本数据可以存放在DISK类型的磁盘,对数据进行合理的分配,可以让所有磁盘的性能得到最好的发挥,同时可以获得最高的性价比。

Fayson的github: https://github.com/fayson/cdhproject

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
0675-6.2.0-什么是HDFS分层存储
CDH支持Hadoop分布式文件系统HDFS中的各种存储类型。早期的CDH只支持一种存储类型。现在,您可以为DataNode数据目录指定不同的存储类型,这样可以根据数据使用频率优化数据使用并降低成本。例如需要频繁使用的数据,可以存储在SSD中,而归档的数据可以存放在相对便宜的存储介质中。
Fayson
2019/07/30
1.2K0
[hadoop3.x]HDFS存储类型和存储策略(五)概述
[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS
Maynor
2021/12/06
1.6K0
[hadoop3.x]HDFS存储类型和存储策略(五)概述
大数据之Hadoop企业级生产调优手册(下)
注:演示纠删码和异构存储需要一共 5台虚拟机。尽量拿另外一套集群。提前准备 5台服务器的集群。
王知无-import_bigdata
2021/10/13
6650
eBay:如何用HDFS分层策略优化数千节点、数百PB的数据存储
目前在eBay的Hadoop集群有数千个节点,支持成千上万的用户使用。他们的Hadoop集群存储数百PB的数据。这篇文章中将探讨eBay如何基于数据使用频率优化大数据存储。这种方法有助于有效地降低成本。 eBay对于大家来说都非常熟悉,是美国的一家电商网站,对于他们来讲每天的数据都是海量的。目前在eBay的Hadoop集群有数千个节点(具体不方便透漏),支持成千上万的用户使用。他们的Hadoop集群存储数百PB的数据。这篇文章中将探讨eBay如何基于数据使用频率优化大数据存储。这种方法有助于有效地降低成本。
CSDN技术头条
2018/02/09
1.5K0
0882-7.1.6-如何对HDFS进行节点内(磁盘间)数据平衡
1.文档编写目的 当HDFS的DataNode节点挂载多个磁盘时,往往会出现两种数据不均衡的情况: 1.不同DataNode节点间数据不均衡; 2.挂载数据盘的磁盘间数据不均衡。 特别是这种情况:当DataNode原来是挂载了几个数据盘,当磁盘占用率很高之后,再挂载新的数据盘。由于Hadoop 2.x 版本并不支持HDFS的磁盘间数据均衡,因此,会造成老数据磁盘占用率很高,新挂载的数据盘几乎很空。在这种情况下,挂载新的数据盘就失去了扩容HDFS数据盘的意义。 如果想要解决节点内多块磁盘数据不均衡的现象,就要
Fayson
2022/07/19
2.1K1
0882-7.1.6-如何对HDFS进行节点内(磁盘间)数据平衡
HDFS异构存储简介
Hadoop在2.6.0版本中引入了一个新特性异构存储.异构存储关键在于异构2个字.异构存储可以根据各个存储介质读写特性的不同发挥各自的优势.一个很适用的场景就是上篇文章提到的冷热数据的存储.针对冷数据,采用容量大的,读写性能不高的存储介质存储,比如最普通的Disk磁盘.而对于热数据而言,可以采用SSD的方式进行存储,这样就能保证高效的读性能,在速率上甚至能做到十倍于或百倍于普通磁盘读写的速度.换句话说,HDFS的异构存储特性的出现使得我们不需要搭建2套独立的集群来存放冷热2类数据,在一套集群内就能完成.所以这个功能特性还是有非常大的实用意义的.本文就带大家了解HDFS的异构存储分为哪几种类型,存储策略如何,HDFS如何做到智能化的异构存储.
大数据真好玩
2020/08/04
2.4K0
HDFS异构存储简介
0723-6.2.0-如何在RedHat7.2使用rpm安装CDH(有CM)
在之前的文档《0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)》中介绍了如何在CM上使用rpm的方式安装CDH6.2.0集群,本文档将介绍如何在CM上使用rpm的方式安装CDH6.2.0集群。
Fayson
2019/11/06
1K0
0723-6.2.0-如何在RedHat7.2使用rpm安装CDH(有CM)
[hadoop3.x]HDFS之银行海量转账数据分层案例(八)
银行有非常多的用户,四大银行拥有数10亿的用户。要保存的数据量可想而知。如果说有的数据,都同等对待,为了保证使用数据的性能,采用的是高性能存储,这将是一笔不小的资源浪费。实际上,超过一定时间的数据,数据访问的频率要低得多。例如:用户查询5年前的转账记录、要比查询1年类的转账记录频率要低得多。
Maynor
2021/12/06
3130
[hadoop3.x]HDFS之银行海量转账数据分层案例(八)
【万字长文】HDFS最全知识点整理(建议收藏)
1)跟NN通信查询元数据(block所在的DN的节点),找到文件块所在的DN的服务器。2)挑选一台DN(就近原则,然后随机)服务器,请求建立socket流。3)DN开始发送数据(从磁盘里读取数据放入流,一packet为单位做校验) 4)客户端以packet为单位接收,现在本地缓存,然后写入目标文件中,后面的block块就相当于append到前面的block块,最后合成最终需要的文件。
857技术社区
2022/05/17
3.2K0
【万字长文】HDFS最全知识点整理(建议收藏)
大数据存储平台之异构存储实践深度解读
经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。 这就产生了一种热和冷数据,对需要频繁访问的数据我们称之为“热”数据,反之我们称之为”冷”数据,而处于中间的数据我们称之为”温”数据。 在数据被视为公司资产的时代,每个公司基本都会保存最近数年的数据,而这些数据尤其是冷数据的累积也给存储平台带来了甜蜜的负担。下面就来分享下如何解决这些“负担”。 首先如何定义
程序你好
2018/07/20
6710
你问我答1 - HDFS数据的写入原理
我们在集群中配置了hdfs异构存储策略,配置如下: dfs.datanode.data.dir:/data02/dfs/dn,/data03/dfs/dn,[ARCHIVE]/mnt/nfs01/dfs/dn dfs.namenode.replication.min:1 dfs.replication:2 然后做了如下测试: hdfs dfs -mkdir /user/xxx/warm hdfs storagepolicies -setStoragePolicy -path /user/xxx/warm -
Fayson
2022/08/26
8700
你问我答1 - HDFS数据的写入原理
怎么做 HDFS 的原地平滑缩容?
当数据规模越来越大,存储成本也水涨船高。随着时间推移,数据热度分布往往呈 2⁄8 原则,即 80% 的访问集中在 20% 的数据上。对于那不经常访问的 80% 数据来说,使用多个 SSD 来存储真是巨大的浪费,需要将冷数据迁移到其他存储成本更低的系统里。这时 JuiceFS 成了理想之选,成本下降 20 倍,同时又提供跟 HDFS 一样高性能的元数据能力(避免Metastore 遍历元数据时雪崩),大量扫描冷数据时也有很高的吞吐量。如果 80% 的数据转移到 JuiceFS 上来,整体成本可节省 90%。如果再给 JuiceFS 提供 适当的空间做缓存,还可以完整替换 HDFS (20% 的热数据通过 JuiceFS 管理的缓存盘来服务,也可以有极高的性能)。
Juicedata
2022/03/30
7050
0621-6.2.0-如何卸载CDH6.2
Fayson在两年前的文章中介绍过CDH的卸载,参考《0008-如何卸载CDH(附一键卸载github源码)V1.2》和《0609-6.1.0-如何卸载CDH6.1》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH,否则并没有现成的一键卸载的脚本供使用。
Fayson
2019/05/14
2.8K0
0621-6.2.0-如何卸载CDH6.2
如何使用分层存储,让 HDFS 变得更高效?
1、Hadoop 及其承诺 众所周知,商用硬件可以组装起来创建拥有大数据存储和计算能力的Hadoop集群。将数据拆分成多个部分,分别存储在每个单独的机器上,数据处理逻辑也在同样的机器上执行。 例如
小小科
2018/05/02
2K0
如何使用分层存储,让 HDFS 变得更高效?
[hadoop3.x]HDFS存储策略和冷热温三阶段数据存储(六)概述
[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS
Maynor
2021/10/09
8590
HDFS 异构存储
该文介绍了在分布式存储系统中,通过使用 Raft 协议进行分布式数据一致性维护和通过 Zab 协议进行分布式数据访问控制。同时,介绍了基于 Raft 协议的 Zab 协议实例以及基于 Zab 协议的 Raft 协议实例。
liubang01
2017/07/28
4.2K0
HDFS 异构存储
0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5
Cloudera在2019年1月29日发布CDSW1.5,CDSW1.5的一个最大的更新就是支持CDH6和HDP,在1.5之前,CDSW是不能安装到CDH6.x的。CDH5.13版本以后支持CDSW的Parcel安装,本篇文章Fayson就主要讲述如何通过CM6.2使用Parcel包安装CDSW1.5。
Fayson
2019/07/09
1.3K0
HDFS应用场景、原理、基本架构及使用方法
如果一个文件大小为10K,则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)
王知无-import_bigdata
2020/08/20
1.8K0
HDFS应用场景、原理、基本架构及使用方法
CM上HDFS容量显示与实际命令不一致问题分析
使用hadoop fs -du –h /命令查看HDFS的使用情况,HDFS的使用为41.63GB
Fayson
2018/11/16
3.9K0
基于腾讯云存储COS的ClickHouse数据冷热分层方案
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),支持PB级数据量的交互式分析,ClickHouse最初是为YandexMetrica 世界第二大Web分析平台而开发的。多年来一直作为该系统的核心组件被该系统持续使用着。目前为止,该系统在ClickHouse中有超过13万亿条记录,并且每天超过200多亿个事件被处理。它允许直接从原始数据中动态查询并生成报告。自2016 年开源以来,ClickHouse 凭借其数倍于业界顶尖分析型数据库的极致性能,成为交互式分析领域的后起之秀,发展速度非常快。
云存储
2021/01/12
6.4K0
基于腾讯云存储COS的ClickHouse数据冷热分层方案
推荐阅读
相关推荐
0675-6.2.0-什么是HDFS分层存储
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档