前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >HDFS相关基本概念

HDFS相关基本概念

原创
作者头像
软件架构师Michael
发布2022-06-05 17:18:05
3960
发布2022-06-05 17:18:05
举报
文章被收录于专栏:软件工程师Michael

1.1 HDFS 产出背景 及 定义

1 )HDFS 产生背景

随着数据量越来越大, 在一个操作系统存不下所有的数据, 那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。

2 )HDFS 定义

HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

HDFS 的使用场景:适合一次写入,多次读出的场景。 一个文件经过创建、写入和关闭之后就不需要改变。

通俗的讲,HDFS就是多台服务器做同一件事情。如:如数据的存储、计算。

大数据总共做三件事情:海量数据都收集、存储和计算。hadoop就干了其中的两件,可见hadoop的强大之处。

1.2 HDFS的优缺点

优点:

HDFS优点
HDFS优点

缺点:

1)不适合延时数据访问

2)无法高效对大量小文件进行存储

1.3 HDFS组成架构

HDFS架构
HDFS架构

HDFS具有主/从架构。HDFS集群由单个NameNode,和多个datanode构成。

NameNode:管理文件系统命名空间的主服务器和管理客户端对文件的访问组成,如打开,关闭和重命名文件和目录。负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系,维护目录树,接管用户的请求。如下图所示:

NameNode文件组成
NameNode文件组成

1、将文件的元数据保存在一个文件目录树中

2、在磁盘上保存为:fsimage 和 edits

3、保存datanode的数据信息的文件,在系统启动的时候读入内存。

DataNode:(数据节点)管理连接到它们运行的​​节点的存储,负责处理来自文件系统客户端的读写请求。DataNodes还执行块创建,删除

Client:(客户端)代表用户通过与nameNode和datanode交互来访问整个文件系统,HDFS对外开放文件命名空间并允许用户数据以文件形式存储。用户通过客户端(Client)与HDFS进行通讯交互。

【小结】

1.HDFS的架构及其工作原理有点小复杂,需要慢慢揣摩了

2.很多技术本身是具有哲学意义的,只要我们去发掘它。无论你是否相信,它都客观存在。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档