知道为什么在海量文件的情况下会出现inode不够用的情况吗?今天本文将回答这个问题。
大家知道Linux内核初始发布的时候使用的是Minix文件系统,但是该文件系统基本上就是一个玩具。它有很多限制,比如只能支持64MB的磁盘空间,而文件名最大只能11个字节等等。这些限制对于今天来看似乎是不可思议的。
为了克服Minix的诸多确定,由Rémy Card开发了基于虚拟文件系统的第一代扩展文件系统,也就是Ext文件系统,该文件系统随Linux内核与1992年发布。虽然Ext文件系统比Minix要好很多,但是还是有很多问题。于是没过多久,Ext2文件系统就替换了该文件系统,并与1997年应用在了RedHat的发行版中。
现在,Ext系列的文件系统都已经发展到第四代了,也就是Ext4文件系统。但是Ext2的源代码依然在Linux内核当中。今天我们介绍该文件系统主要原因有二,一方面是它比较简单,非常适合入门;另外一方面是通过该文件系统的理解,基本可以理解Linux内核文件系统的整体架构。
Ext2文件系统将磁盘划分为大小相等的逻辑块进行管理,其默认大小是4KB(不做特殊说明,本文后续内容都采用该默认值)。文件系统逻辑块的大小在格式化的时候可以指定的。文件系统将磁盘划分为逻辑块就好像一个大厦划分为若干个房间,或者超市规划为若干货架一样。同时为了便于管理和避免访问冲突,其将若干个逻辑块组成一个大的逻辑块,称为块组(Block Group)。块组是Ext2文件系统的管理单元,块组中又包含若干管理数据(元数据)实现对块组中的逻辑块的管理,比如那些逻辑块是什么功能,那些逻辑块已经被使用等等。
图1 磁盘的块组划分
通过一个大厦对一个磁盘进行类比在形象不过了。大厦框架好比磁盘;而房间是对大厦规划后的结果,好比对磁盘的格式化;大厦每层的布局图好比元数据。我们可以通过楼层和每层的布局图很容易的找到房间。文件系统与此类似,它通过元数据查找和管理逻辑块。
如图2是某货架示意图。每层都被划分为不同的货架,每个货架都有编号,且防止固定类型的商品。比如有些放酸奶,有些放调料还有放奶粉等,并规划。我们通过示意图和房间号可以很容易找到具体位置。
图2 超市货架图
如图3是Ext2文件系统的磁盘布局图。如中间蓝色为磁盘的逻辑空间,它被划分为若干个块组。每个块组的大小相等。如果我们在格式化的时候采用的是默认参数,此时块组的大小是128MB(后面介绍为什么是128MB),每个逻辑块的大小是4KB。
每个块组内部都有相关的元数据对该块组进行管理。如图3所示,第一个块组中的元数据包括引导块、超级块、块组描述符、预留GDT块、数据块位图、inode位图、inode表和其它数据块。后续块组中有些是对超级块的备份,有些则没有第一个块组这么完整的元数据信息,而只有数据块位图、inode位图和inode表等元数据信息。也就是说块组其实分为两种,一种是有超级块的,比较复杂的块组(如图3下面淡棕色所示),另外一种是没有超级块的,比较简单的块组(如图3上面淡绿色所示)。
图3 块组及内部细节
引导块是作为引导操作系统用的,在文件系统作为根文件系统时使用。在系统加电启动是,其内容有BIOS自动装载并执行。它包含一个启动装载程序,用于从计算机安装的操作系统中选择一个启动,还负责继续启动过程。因此Ext2文件系统把这个区域预留出来,不作为文件系统管理的磁盘区域。
超级块是文件系统起始位置,用于整个文件系统,它作为文件系统的入口,记录了整个文件系统的关键信息。而上面提到的其它元数据则只针对本块组。下面本文介绍一下每个元数据的具体作用。
超级块记录了整个文件系统的各种信息,包括逻辑块的数量、inode数量、支持的特性和维护信息等内容。为了保证整个文件系统的完整性,例如突然断电或者系统崩溃等场景,文件系统出现元数据损坏的情况,Ext2文件系统对超级块进行了备份。这样可以保证即使在第一个超级块出现损坏的情况下,仍然可以通过其它块组中的超级块进行恢复,不至于整个文件系统都不可访问。
超级块位于第1个逻辑块内,由于第一个块组预留了1KB的内容作为系统引导,因此在该块组超级块的位置在1KB偏移处,而其它备份块组中的超级块都在该块组偏移为0的地方。超级块会占用1个逻辑块的空间(实际占用空间要小于该值),也就是说块组描述符(ext2_group_desc)是在4KB偏移的地方。如下代码是超级块在磁盘存放的结构体,磁盘数据被读出来后按照该结构体的格式进行解析,其中变量__lexx表示变量是小端对齐,使用是需要转换为CPU的对齐方式。在文件系统中还有另外一个结构体super_block,这个结构体用于代码逻辑中使用。
块组描述符,顾名思义是对该块组的描述,其中包括该块组中数据块位图的位置、inode位图位置和inode表位置等信息。另外,还包括数据块和inode的剩余情况等信息。块组描述符位于第2个逻辑块,占用一个逻辑块的空间。
数据块位图标识了块组中那个数据块被使用了,那个没有被使用。磁盘中每个被管理的逻辑块在该位图中用1bit进行表示,0为未使用,1为已经使用。数据块位图占用1个逻辑块,对于默认块大小(4KB)情况,可以管理40968个逻辑块,也即40968*4096=128MB的空间。当然如果格式化的时候块大小为8KB,则管理的空间会更大一些。
inode位图与逻辑块位图类似,描述inode的使用情况。其中位图中的每一位与inode表中的一项对应。如果这一位为1,则说明inode表中的inode已经被分配出去,否则就表示该inode可以被使用。默认情况inode位图占用的空间也为4KB。
inode用于唯一标识一个文件,在磁盘上是一堆数据,而我们关系通常是一个ID。文件系统根据这个编号查找具体的文件。
inode表一列表的形式保存了文件的元数据信息,包括文件大小、扩展属性和时间等内容。由于inode结构的大小根据格式化文件系统的属性而有差异,因此该表占用的磁盘空间不定,大概若干个逻辑块的大小。关于文件名称与inode数据结构的关系是通过inode的id确定的,在文件夹中的文件存储包含文件名和inode的id信息,而通过该id可以计算出inode数据结构位于的块组位置和inode表位置。
回到文章开头的内容,由于inode位图的大小是一定的,因此也就说明了inode的数量是一定的。因此在海量小文件的情况下就有可能出现inode不够用的情况。因此在进行文件系统监控时就需要监控inode的使用情况,防止出现inode用完导致的系统问题。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。