进程是 Linux 事务管理的基本单元,所有的进程均拥有自己独立的处理环境和系统资源。进程的环境由当前系统状态及其父进程信息决定和组成,将某个可执行文件加载到内存中运行,那么就会演变成一个或者是多个进程。(产生多个进程的原因是进程在运行的时候可以再创建新的进程,但是加载的时候只有一个进程),为了更好的理解进程,以我们平时在 Linux 环境下运行一个 C 程序为例进行说明:
代码很简单,hello world
:
#include <stdio.h>
int main(void)
{
printf("hello world!!!!\r\n");
while(1);
}
如下是在终端执行的命令:
image-20210619160036037
说到这里,有必要说一下程序和进程之间的关系,程序是存放在存储介质上的一个可执行文件,而进程是程序执行的过程。进程的状态是变化的,其中包括进程的创建、调度和消亡,程序是静态的,而对于进程来说是动态的。
我们在终端运行如下命令,可以看到如下的信息:
image-20210619161052672
从上述可以看出,可执行文件在存储时,可以分为:代码区(text)、数据区(data)和未初始化数据区(bss)三部分。对于一个进程来说,一个进程是一个运行着的程序段,一个进程主要包括在内存中宏申请的空间,代码(加载的程序,包括代码段,数据段,BSS)、堆、栈以及内核进程信息结构,打开的文件、上下文信息以及挂起的信号等。下面列出了可执行文件和进程的结构:
image-20210619162214886
为了更好地管理 Linux 所访问地资源,系统在内核头文件 include/linux/sched.h
中定义了结构体 struct task_struct
来管理每个进程地资源,下图中结构体中一部分成员的代码截图:
image-20210619164701518
图中仅仅知识呈现出一小部分内容,结构体 struct task_struct 主要包括线程基本信息、内存信息、tty 终端信息,当前目录信息、打开的文件描述符以及信号信息,除了这些,还有其他进程属性,例如:PID、PPID、UID、EUID。下图是一个关于结构体的一个示意图:
image-20210619165014962
对于单 CPU 系统来说,在某一个时刻,只能有一个进程处于运行状态,其他进程都处于其他状态,等待系统资源,各个任务根据调度算法在这些状态之间不停地切换。在Linux 2.6.12
内核中,用户级进程主要有以下几种状态:就绪/运行状态、可中断地等待状态,不可中断地等待状态,停止状态和僵死状态。下面是代码各个状态的宏定义:
#define TASK_RUNNING 0 /* 就绪 */
#define TASK_INTERRUPTIBLE 1 /* 中断等待 */
#define TASK_UNINTERRUPTIBLE 2 /* 不可中断等待 */
#define TASK_ZOMBIE 4 /* 僵死 */
#define TASK_STOPPED 8 /* 停止 */
下面示意图是用户级进程各个状态之间地切换示意图:
image-20210619171952351
而对于内核进程状态来说略有差异,其状态定义如下:
image-20210619173748862
在讲述这两个概念之前,先引入 Linux 中的另外一个概念,也就是线程,在前面提到,进程是资源分配的基本单元,那对于线程来讲,线程是 CPU 调度的最小单位。一个程序中至少有一个进程,一个进程中至少有一个线程。
其实,在 Linux
里,无论是进程,还是线程,到了内核里面,都统一叫做任务(Task),并且由一个统一的结构task_struct进行管理。下图是任务管理的一个示意图:
image-20210619205649845
如上图所示的任务列表一样,所有执行的项目有个项目列表,所以也应该有一个链表,将所有的 task_struct
串起来,比如应该有如下所示的数据结构:
struct list_head tasks;
对于每一个任务来说,都应该有一个ID
,作为这个任务的唯一标识。在task_struct
里面涉及到任务ID
的,有下面几个:
pid_t pid;
pid_t tpid;
struct task_struct *group_leader;
上述中,pid
是process id
,tgid
是thread group ID
,对于任何一个进程,如果只有主线程,那么pid
是自己,tgid
也是自己,group_leader
指向的还是自己。
但是,如果一个进程创建了其他进程,那么就会有所变化了。线程有自己的pid
,tgid
就是进程的主线程pid
,group leader
指向的就是进程的主线程。
任何进程(除 init 进程)都是由另一个进程创建,该进程称为被创建进程的父进程,被创建的进程称为子进程,父进程号无法在用户层修改。父进程的进程号(PID)即为子进程的父进程号(PPID)。
在 Linux
系统中,进程拥有自己的进程号(PID)和进程组号(PGID),进程组是一个或者多个进程的集合,它们与同一作业相关联,可以接收来自同一终端的各种信号。每个进程组都有唯一的进程组号,进程组号可以在用户层进行修改。
为了更好的说明上述几个“号”之间的区别,给出如下所示的代码:
#include <stdio.h>
#include <unistd.h>
int main(int argc, char **argv)
{
int i;
printf("\t pid\t ppid \t pgid\n");
printf("parent\t%d\t%d\t%d\n",getpid(), getppid(), getpgid(0));
for (i = 0; i < 2; i++)
if (fork() == 0)
printf("child\t%d\t%d\t%d\n",getpid(), getppid(), getpgid(0));
return 0;
}
运行代码,得到的结果如下所示:
image-20210619220301951
可以看到,第一行,主进程,pid = pgid
,也就是说父进程也就是当前的shell
,第二行,子进程,pid 依次增加,pgid=ppid
,符合上述的说法
会话,是一个或多个进程组的集合,系统调用函数getsid()
用来获取某个进程的会话ID(SID)
。
比如说,我们通过SSH
登陆服务器,就会打开一个控制终端(TTY),这个控制终端就对应一个会话。而我们在终端中运行的命令以及他们的子进程,就构成了一个个进程组,其中,在后台运行的命令,构成的是后台进程组;在前台运行的命令,构成前台进程组。
image-20210619223140086
上述就是本次关于 Linux 进程的一个概述,仅仅是一个概述,没有从很深的层面去分析,而且关于 Linux 进程的内容还有很多,这次只是说了其中一方面,不积硅步,无以至千里,加油呀。