首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >漫画大数据:HDFS 中 NameNode 的内存为什么会一直涨?

漫画大数据:HDFS 中 NameNode 的内存为什么会一直涨?

作者头像
DataChat
发布于 2023-02-06 02:48:15
发布于 2023-02-06 02:48:15
72200
代码可运行
举报
文章被收录于专栏:漫画大数据漫画大数据
运行总次数:0
代码可运行

NameNode 里有个叫 Namespace 的,它是维护整个 HDFS 文件系统的目录树结构及目录树上的状态变化的,比如一个目录树长这样:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/
├── user
│   ├── aaa.txt
│   ├── bbb.avi
├── tmp
├── opt
│   ...

当新增了一个目录/文件,或者删除了一个目录/文件时,Namespace 就会更新这个目录树。

NameNode 里有还有个叫 BlockManager的,它是用来维护整个文件系统中与数据块相关的信息及数据块的状态变化的,比如,/user/bbb.avi 这个视频文件很大,它会被切分后存放在不同的地方(Block),BlockManager 就是用来记录这些 Block 到底是在哪台机器(DataNode)上。

当我们想要查看 HDFS 上的某个文件时,都需要先问问 NameNode,这个文件它被切成了几小块(Namespace的作用),每个小块都保存在哪台机器上(BlockManger的作用),然后我们再按顺序去那些机器(DataNode)上一小块一小块地去查看文件。

当 HDFS 里的目录和文件变多,Namespace 要维护的目录树就会变大;同时,文件数量增加,BlockManager 要记录的文件被切分后的 Block 信息就多了。这两样东西都是维护在 NameNode 的内存里的,所以呢,慢慢地 NameNode 占用的内存就跟着变大了。

—————END—————

喜欢本文的朋友们,欢迎关注公众号DataChat,收看更多精彩内容~

文中「澜妹、澜宝」使用了数澜的吉祥物,数澜科技:让数据用起来!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DataChat 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
漫画大数据:如何解决 NameNode 内存持续增长的问题(一)
以下内容参考自:https://tech.meituan.com/2016/08/26/namenode.html
DataChat
2023/02/06
7970
HDFS NameNode内存详解
前言 《HDFS NameNode内存全景》中,我们从NameNode内部数据结构的视角,对它的内存全景及几个关键数据结构进行了简单解读,并结合实际场景介绍了NameNode可能遇到的问题,还有业界进行横向扩展方面的多种可借鉴解决方案。 事实上,对NameNode实施横向扩展前,会面临常驻内存随数据规模持续增长的情况,为此需要经历不断调整NameNode内存的堆空间大小的过程,期间会遇到几个问题: 当前内存空间预期能够支撑多长时间。 何时调整堆空间以应对数据规模增长。 增加多大堆空间。 另一方面NameNo
美团技术团队
2018/03/12
1.5K0
HDFS NameNode内存详解
HDFS NameNode内存全景
概述 从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和运行机制尤其重要。除特别说明外,本文基于社区版本Hadoop-2.4.1[1][2],虽然2.4.1之后已经有多次版本迭代,但是基本原理相同。 NameNode管理着整个HDFS文件系统的元数据。从架构设计上看,
美团技术团队
2018/03/12
1.8K0
HDFS NameNode内存全景
HDFS元信息管理的核心技术与实现
HDFS(Hadoop Distributed File System)是大数据领域中一种核心分布式文件系统,以高可靠性和高扩展性为特点,为海量数据存储提供了高效解决方案。具备高度容错性,通过分布式架构实现数据的高效存储与管理,HDFS采用分块存储与冗余副本策略,确保数据的高可用性与持久性,同时支持高吞吐量的数据访问,满足大数据量处理对性能与稳定性的需求,适用于大规模数据存储和处理场景,特别是读多写少的场景。
童子龙
2025/03/19
2510
HDFS元信息管理的核心技术与实现
HDFS NameNode重启优化
一、背景 在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所以优化NameNod
美团技术团队
2018/03/12
2.1K0
HDFS NameNode重启优化
大数据技术之Hadoop(HDFS)第1章 HDFS概述
Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
用户7656790
2020/08/18
7370
大数据技术之Hadoop(HDFS)第1章 HDFS概述
HDFS工作机制和原理
HDFS是一种分部式的文件系统,在他出现以前就已经存在了很多中分布式文件系统,但是他们都是部署在服务器上,需要高的POSIX接口,同时他们默认服务器是稳定的可以提供大量资源。
Tim在路上
2020/08/04
1.3K0
大数据知识总结(一):Hadoop之HDFS重点架构原理
分布式系统基础架构,旨在解决海量数据存储和计算分析问题,核心组件:HDFS + MapReduce + Yarn。
Lansonli
2025/05/24
2090
独家 | 一文读懂Hadoop(二)HDFS(上)
随着全球经济的不断发展,大数据时代早已悄悄到来,而Hadoop又是大数据环境的基础,想入门大数据行业首先需要了解Hadoop的知识。2017年年初apache发行了Hadoop3.0,也意味着一直有一群人在对Hadoop不断的做优化,不仅如此,各个Hadoop的商业版本也有好多公司正在使用,这也印证了它的商业价值。 读者可以通过阅读“一文读懂Hadoop”系列文章,对Hadoop技术有个全面的了解,它涵盖了Hadoop官网的所有知识点,并且通俗易懂,英文不好的读者完全可以通过阅读此篇文章了解Hado
数据派THU
2018/01/30
2.4K0
独家 | 一文读懂Hadoop(二)HDFS(上)
大数据HDFS技术干货分享
关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 1 HDFS前言 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 重点概念: 文件切块,副本存放,元数据 重要特性如下: ⑴ HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( d
昱良
2018/04/08
1.2K0
大数据HDFS技术干货分享
Hadoop之hdfs体系结构
HDFS 采用的是hostname01/slaves这种主从的结构模型来管理数据,这种结构模型主要由四个部分组成,分别是Client(客户端)、Namenode(名称节点)、Datanode(数据节点)和SecondaryNameNode。
全栈程序员站长
2022/09/01
4060
HDFS基本介绍
HDFS 是 Hadoop Distrbute File System 的简称,意为:Hadoop 分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。 分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。 HDFS 文件系统的容量 理解: 将多个节点的容量汇总到一起拼接成一个大的文件系统, 在一个节点上传数据,在其他的节点上都能够访问使用。
用户4870038
2021/02/05
8850
HDFS基本介绍
hadoop-3.2.0------>入门十七hadoop之HDFS
随着数据量越来越大,在一个操作系统存不下所有的数据,那么分配到更多的操作系统管理磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。
用户5899361
2020/12/07
4500
hadoop-3.2.0------>入门十七hadoop之HDFS
hadoop源码解析之hdfs内部结构分析
hdfs的内部的文件和目录是如何以树的结构存储的,每个文件对应的块是如何存储的,每个块对应的怎么对应到每一个datanode的,这些结构在hdfs的内部源码是用哪些变量存储的,整体结构是怎么连接起来的,下面我们通过Hadoop的最新稳定版代码(2.7.3)来学习一下。
大数据技术与应用实战
2020/09/15
1.2K0
hadoop源码解析之hdfs内部结构分析
HDFS基本特性常见命令工作机制
HDFS是一个分布式文件系统,采用分而治之的设计思想,将大文件、大批量文件,分布式存放在大量服务器上,为各类分布式运算框架(MapReduce,spark,tez等)提供数据存储服务。首先,它是一个文件系统,用于存储文件,通过统一的命名空间目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
spilledyear
2018/10/09
6300
HDFS基本特性常见命令工作机制
大数据教程-01HDFS的基本组成和原理
起源于2003年谷歌的Google File System相关论文,随后Doug Cutting(我们下面就叫他切哥吧)基于GFS的论文实现了分布式文件系统,并把它命名为NDFS(Nutch Distributied File System)。
马一特
2022/05/10
6070
大数据教程-01HDFS的基本组成和原理
大数据Hadoop之HDFS认识
源自Google的GFS(Google分布式文件系统)论文,分布式文件系统(HDFS)是GFS的克隆版。HDFS负责数据文件的存储,可让多机器上分享存储空间,让实际上通过网络来访问文件的动作,用户就像是访问本地磁盘一样便捷。 即使HDFS集群中某些节点脱机, 整体来说系统仍然可以持续运作而不会有数据丢失。 HDFS提供了一个低成本、高可靠、高容错、高性能的分布式文件系统。 1.低成本主要体现在搭建HDFS主要是通过横向扩展机器数量而非花高价钱购进昂贵的服务器。 2.高可靠主要体现在 1)、HDFS
小小科
2018/05/04
9850
大数据Hadoop之HDFS认识
【大数据】hdfs
                         spark  Streaming
Java架构师必看
2021/07/21
3540
Hadoop(四)HDFS集群详解
前言   前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。   HDFS前言:     设计思想:(分而治之)将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。     在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务。   分布式文件系统:     问题引发:海量数据超过了单台物理计算机的存储能力     解
用户1195962
2018/01/18
2.4K0
Hadoop(四)HDFS集群详解
大数据入门:HDFS数据读写机制
作为Hadoop的分布式文件系统的HDFS,是Hadoop框架学习当中的重点内容,HDFS的设计初衷,是致力于存储超大文件,能够通过构建在普通PC设备上的集群环境,以较低成本完成大规模数据存储任务。今天的大数据入门分享,我们就主要来讲讲HDFS数据读写机制。
成都加米谷大数据
2020/12/01
8820
大数据入门:HDFS数据读写机制
相关推荐
漫画大数据:如何解决 NameNode 内存持续增长的问题(一)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档