【Linux】从虚拟到物理：解密地址空间的奥秘

Yui_

发布于 2025-01-20 17:51:29

3840

文章被收录于专栏：Yui编程知识Yui编程知识

背景知识

在早期的时候，计算机还没有虚拟机制，程序指令所访问的内存地址就是物理地址，所以就要将所有程序都加载到内存中，但是我们实际的物理内存是有限的，那么就会出现一些问题：

当多个程序重新运行时，必须保证这些内存用到的内存总量小于计算机实际的物理内存的大小。
内存使用效率低，内存空间不足，就需要将其他程序暂时拷贝到硬盘中，然后重新将新的程序装入内存，但是由于大量的数据转入与转出，内存的使用效率会非常低。
进程地址空间不隔离，由于空间时直接访问物理内存的，所以每一个进程都可以修改其他进程的内存数据，设置修改内核地址空间的数据，那么可能会导致一些恶意程序可以随意修改别的进程，就会造成一些破坏。
程序运行地址的不确定，因为内存地址是随机分配的，所以程序运行的地址也是不正确的。为此才会引入虚拟地址。用户进程间的地址互补可见，互不影响。

1. 引出虚拟地址与物理地址

计算机的物理内存大小是固定的，就是计算机主板内存槽上的实际物理空间，CPU可以直接继续寻址，物理内存的容量是固定的，但是寻址的卡空间取决于CPU地址线的数量。32位系统上，线性地址空间可达4G，那么这4G的内存是如何分配的呢？一般情况下，是以3：1来分配的，用户进程配有3G的空间，而内核独自配有1G的内存。在C语言的学习期间，都会学习了这样的空间分布图：

下面笔者，将会利用两段代码，为读者引出操作系统中的真实物理内存。

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>

int val = 10;
int main()
{
    pid_t id = fork();
    if(id<0){
        perror("fork");
        return 0;
    }

    if(id == 0){
        //child
        printf("child[%d] val = %d &val = %p\n",getpid(),val,&val);
    }
    else{
        //parent
        printf("parent[%d] val = %d &val = %p\n",getpid(),val,&val);
    }
    sleep(1);

    return 0;
}
//打印结果：
/*
parent[1297] val = 10 &val = 0x60104c
child[1298] val = 10 &val = 0x60104c
*/

进程是具有独立性的，它们的地址应该不同才对，但是地址居然是一样的，难道是因为子进程是按照父进程为模板，父子并没有对变量进行任何修改？那么我们换一个代码版本来看看。

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int val = 10;
int main()
{
    pid_t id = fork();
    if(id<0){
        perror("fork");
        return 0;
    }

    if(id == 0){
        //child
        val = 100;
        printf("child[%d] val = %d &val = %p\n",getpid(),val,&val);
    }
    else{
        //parent
        sleep(3);//让子进程先运行完
        printf("parent[%d] val = %d &val = %p\n",getpid(),val,&val);
    }
    sleep(1);
    return 0;
}
//打印结果
/*
child[1948] val = 100 &val = 0x60104c
parent[1947] val = 10 &val = 0x60104c
*/

在这段代码中，我们就可以清楚的知道，子进程和父进程同一个变量肯定是不同的地址，尽管打印的地址相同，但是一样的地址是不可能存储不同的数值的。那么也就表明我们所看到的地址是虚拟的地址，在其背后还存在着真实地址，它们应该拥有着一种映射关系，把虚拟地址映射到真实地址。这里笔者先给出一个概念：

我们在使用C/C++语言时所看到的地址，全部都是虚拟地址，物理地址用户是看不到的，由操作系统统一管理，操作系统负责将虚拟地址转化为物理地址。

2. 虚拟地址与物理地址的关系

在上文我们已经看到了操作系统是存在着虚拟地址和物理地址的，也得知了它们之间存在着一种映射关系，那么它们间又是怎么进行映射的呢？为了讲清楚这个关系，我画了一张图：

这是上面程序中子进程与父进程在操作系统中的逻辑图。可以看到，虚拟地址是通过页表来映射到物理内存的。那么页表的具体结构是什么呢？

3. 关于页表

页表是用来将虚拟地址和物理地址建立映射关系的，除此之外，页表中还存在其他属性的字段。

众所周知，内存单元是计算机存储数据的最小单元，通常为1字节（Byte）也就是8位（bit）。在一个32位机器上，地址总线宽度位32位，这表示虚拟地址的范围是2^32。每个地址对应着一个内存单元，所以32位机器上最多拥有2^32个内存单元，换算一下就是4GB大小的空间。那么你认为在计算机中的页表是如何让虚拟地址映射物理地址的。是一一对应的关系吗？假设是一一对应的关系：如果在极端情况下，每个地址都在页表中建立映射关系，其中页表的每一列大小都是4字节。如果是这样的话，我们简单计算一下，页表的大小将会来到惊人的48GB，计算过程如下：

2^32 * 4 * 3 * 1Byte = 48GB

那可不行，小小页表居然要花费48GB的内存。所以页表是不可能采用单纯的地址->地址的映射关系的为了理解页表到底有多大，我们还需下面的一些补充知识。

3.1 补充知识——页

内存管理通常以页(page)为单位。操作系统内存分页的基本单位，常见的页大小：

4kb（标准页）
2MB或1GB（大页/巨页）一般都是4KB 提问：为什么要以页为单位进行内存管理？

操作系统从磁盘中读取数据时，一次读取大量数据比多次读取小量数据要快的多，因为磁盘是外设，每一次读取必然要伴随着寻址等机械运动（机械硬盘），无论对于内存还是CPU，这都是非常慢的，为了尽可能提高效率，操作系统选择一次IO（输入/输出）大量数据的方式读取数据。通常IO的数据以块为基本单位，在文件系统中，一个块的大小为4KB（一块由8个扇区组成，单个扇区大小为512Byte），即便我们一次只想获取一个字节，操作系统最低也会IO一个数据块(4KB)

也就是说，内存其实被切成了大小为4KB的小块，在内存中，单块内存4KB被称为页，组成单块内存的边界(类似于数组的下标)被称为页框/页帧

然后就是先描述再组织，操作系统为了管理这些页Page，一定会创建一个结构体来描述它们，struct page就是它们的类型。这个类型中描述这page的状态，如：是否为脏数据、是否被占用，因为存在很多的page,所以需要将struct page结构进行管理，使用的就是数组，struct page mem[N]，其中N表示当前内存中page的数量。

struct page{
	//...
};
struct page mem[N];

还是以32位的机器为例，内存为4GB，把这4GB分为page，一共可以得到100W个page，而我们用来描述page的大小不过几字节的大小，那么struct page mem[100W]的大小也不过就是4~5MB，已经非常小了。内存管理的本质

申请：寻找mem数组中一块没有被使用的充足空间，将对应的页page属性设置为已申请，并返回起始地址。
使用：将磁盘中的指定的4kb大小的数据块存储到内存中对应的page中。
释放：将page属性设置为可用状态。

3.2 补充知识——局部原理

局部原理是计算机科学中的一个重要概念，用于描述程序在运行过程中对内存的访问行为模式。它反映了程序访问数据和指令时的空间和时间规律性，是现代计算机设计（尤其是缓存和虚拟内存系统）的基础。局部原理分为两种主要类型

时间局部性
空间局部性下面笔者主要谈空间局部性，空间局部性是指如果某个内存位置被访问，那么其附近的内存位置也很可能在不久的将来被访问。原因是：
数据通常按数组或者连续块存储，遍历数组或结构体会访问连续地址
程序代码通常是顺序执行的，指令在内存中是连续存放的。局部原理是程序在访问内存时表现出的普遍规律，时间局部性和空间局部性共同解释了程序访问行为的特性。理解和利用局部原理是计算机系统设计中的关键，可以有效提高内存访问效率，降低系统的性能瓶颈。