前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >工作多年,Linux文件系统还不太了解?

工作多年,Linux文件系统还不太了解?

作者头像
架构精进之路
修改2022-05-06 14:56:45
3350
修改2022-05-06 14:56:45
举报
文章被收录于专栏:架构精进之路

1 初识目录结构

2 初识文件

2.1 文件类型

2.1.1 文件

第一个属性为 [-]。最常用的类型,包括:

  • 纯文本文件(ASCII);
  • 二进制文件(binary);
  • 数据格式的文件(data);
  • 各种压缩文件。

2.1.2 目录

第一个属性为 [d]

2.1.3 链接文件

第一个属性为 [l]

2.1.4 管道

第一个属性为 [p]

2.1.5 块设备

第一个属性为 [b] 。储数据以供系统存取的接口设备,简单而言就是硬盘。

代码语言:javascript
复制
ll /dev/vda1
brw-rw---- 1 root disk 253, 1 11月 28 19:17 /dev/vda1

2.1.6 字符设备文件

第一个属性为 [c] 。即串行端口的接口设备,例如键盘、鼠标等等。

2.1.7 套接字

第一个属性为 [s]。最常在 /var/run目录中看到这种文件类型。

查看文件类型的方法:

代码语言:javascript
复制
#file, stat, ls

讲到这里,可以有些疑问,到底文件是个什么东东?

2.2 文件是什么?

如上图所示,一般文件包括两部分:元数据和用户数据

  • 元数据:文件的附属信息:文件大小,文件创建时间,文件拥有者,Inode编号(文件的唯一标识)
  • 用户数据:记录文件真实内容的地方。

为了有效管理文件,引入了文件系统。

2.3 文件系统

文件系统,本身是对存储设备上的文件,进行组织管理的机制。所以根据组织机制的不同,可以分为不同的文件系统。

文件系统系统包括4大要素:索引节点,目录项,逻辑块,超级块

2.3.1 索引节点

同上面讲的元数据部分,索引节点和文件是一一对应的,它和文件内容一样,是存储在磁盘中的。所以索引节点是占用磁盘空间的。所以它不会随着进程的消亡而消失。

2.3.2 目录项

简称dentry,用来记录文件的名称,索引节点指针以及目录项之间的关联关系,会形成一棵树状结构。多个关联的目录项,就形成了目录结构。

它是由内存维护的一个内存数据结构,所以通常被称作“目录项缓冲”。

2.3.3 逻辑块

索引节点和目录项记录了文件的元数据,那么文件内容是怎么存储的?

实际上,磁盘上最小的读写单位是“扇区”,只有512B大小,也就是0.5K,为了读写效率,系统会将连续的扇区组合一个”块“,一般一个“块”是8个扇区,也就是4K,4096B。

从磁盘中读取内容是特别慢的,所以系统会将读取的内容存到“页缓冲”中。

2.3.4 超级块

一个超级块对应一个文件系统。超级块会保存文件系统的大小和状态、块设备的引用和元数据信息(比如空闲列表等等)

文件系统有多种,比如Ext4, NFS等,根据存储位置不一样,可以分为三类。

  • 基于磁盘的文件系统:也就是数据直接存储在计算机本地挂载的磁盘中。常见的Ext4, Ext3,XFS。
  • 基于内存的文件系统:也就是虚拟文件系统。这类文件系统,不需要任何磁盘分配存储空间,但会占用内存。比如/proc文件系统,/sys文件系统。
  • 网络文件系统:用来访问其他计算机数据的文件系统,比如NFS,SMB。

每个文件系统是独立的,有自己的组织方法,操作方法。那么对于用户来说,不可能所有的文件系统都了解,那么怎么做到让用户透明的去处理文件呢?

2.4 VFS虚拟文件系统

虚拟文件系统定义了一组所有文件系统都支持的数据结构和标准接口。用户进程和内核中的其他子系统,只需要跟VFS提供的统一接口交互就OK,不需要关心底层文件系统实现细节。

磁盘的操作是非常慢的,所以为了协调磁盘的访问速度,内核提供了“索引节点缓存”,“目录项缓存”,“页缓冲”。

2.5 文件系统I/O

根据文件读写方式的各种差异,导致I/O的分类多种多种。最常见的为以下4类:

2.5.1 缓冲IO和非缓冲IO

第一种,根据是否利用标准库缓存,分为:

  • 缓冲IO:只利用标准库的缓冲来加速文件的访问。标准库内部会通过系统调用来访问文件。
  • 非缓冲IO:直接系统调用。

需要说明的是:“缓冲”指的是标准库的缓冲,而不是内核提供的高速缓冲区(也就是页缓冲)

  • 无缓存IO操作数据流向路径:数据——内核缓存区——磁盘
  • 标准IO操作数据流向路径:数据——流缓存区——内核缓存区——磁盘

2.5.2 直接IO和非直接IO

是否跳过页缓冲。

要想实现直接IO,可以在系统调用的时候,指定O_DIRECT标志。

直接IO和非直接IO,本质上还是和文件系统打交道,如果跳过文件系统直接读写磁盘,就是我们通常说的裸IO。

2.5.3 阻塞和非阻塞IO

设置O_NONBLOCK

  • 阻塞IO:是指应用程序执行IO操作,如果没有获得响应,则会阻塞当前线程,不会做其他任务。
  • 非阻塞IO:是指应用程序执行IO操作,不阻塞当前线程,可以继续执行其他任务,随后会轮询或者事件通知的形式,获取调用结果。

2.5.4 同步和非同步IO

设置O_SYNC或者O_DSYNC标志,就代表同步IO。设置O_DSYNC,会等待数据写入磁盘才返回;设置O_SYNC,则是在O_DSYNC的基础上,要求文件元数据也要返回磁盘后,才返回。

  • 同步IO:是指应用程序执行IO操作后,要一直等待IO完成后,才能获得IO响应。
  • 异步IO:是指用用程序执行IO操作后,不用等待完成或完成后的响应,而是继续执行就可以。等待IO完成,响应会用事件通知的形式,告诉应用程序。

·················· END ··················

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 架构精进之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档