1.正在执行的程序,叫做进程; 2.本质上加载到内存中的程序都叫做进程;
在我们打开电脑之前,我们的文件都是储存在磁盘上的,而当我们打开电脑,第一个要加载的软件就是操作系统本身,然后再次在此基础上,我们使用的各种软件都要先加载到内存中经过CPU的调度才能正常运行,而正在运行的软件可以简单的理解为进程;
值得注意的是,OS上打开的不只有一个进程,而是多个进程,那么OS是如何管理这些进程的呢?
----管理一个对象我们还是遵循以往的套路:先组织,再描述;
我们写好的C/C++程序保存在磁盘上,当我们要使用的时候,OS会将此程序的代码和数据加载到内存中,而这个时候其实就可以叫做是一个进程块了;
但是需要注意的是一个进程可并不是只有代码和数据,还要还要包括对应的属性,还需要管理;所以!本质上进程=内核数据结构(task_struct)+程序的代码和数据;
当一个程序的数据和代码加载到内存中时虽然是一个进程块,但是并不完整!OS还要在内核区单独开辟空间还要创建一个描述此进程的对象--task_struct
task_struct是封装了一个进程的属性的结构体,OS通过task_struct来管理进程什么时候给CPU调度,进程的优先级,什么时候进程等待,什么时候阻塞等等各种状态以及对其的各种操作....
就像那时我们学生在校园中就相当于是每一个进程,每个人都是一个独立的个体(进程具有独立性), 但是如果一个学校仅仅只是招收了这么多的学生,那什么时候上课,上什么课,什么时候熄灯,活动,比赛开展的群体是谁? 所以学校还需要对学生们进程管理,学校就建立教务系统(相当于是OS内核),里面保存着所有学生的信息,有学生的姓名,性别,年级,辅导员... 这些都是学生的属性,学校会根据学生所选课程安排课程表,发放奖学金等等..通过学生进程的状态来进程管理;
OS通过把描述进程的对象task_struct以链表的形式串起来,本质上就是对数据结构的增删查改!
我们来看一下task_struct里面有什么?
task_struct的内容: 1、标示符: 描述本进程的唯一标示符,用来区别其他进程。 (有点类似学校里每个学生的学号,是一个唯一标识,方便我们通过标示符来管理进程) 2、状态: 任务状态,退出代码,退出信号等。 (OS中同时存在多个进程,所以可能有的进程正在运行、有的正在休眠、有的在正在待定、有的即将销毁……也就是说每个进程当前可能都处于某一种状态) 3、优先级: 相对于其他进程的优先级。 (OS中有多个进程,所以先执行谁肯定是要有一个标准的,所以进程之间可能存在对应的优先级关系) 4、程序计数器: 程序中即将被执行的下一条指令的地址。 (以前我们在学习函数栈帧的时候,我们知道代码是从上往下运行的,但是这个过程中可能会遇到出现某个函数需要我们进行跳转,这个时候当前的栈帧会暂时保存着,然后当跳转过去的相关代码执行结束后再返回之前栈帧的位置继续运行。但是由于OS中不仅仅只有一个进程,所有有可能这个进程在执行的时候可能会被一些切换给中断,转而去执行别的进程,然后该进程可能会进入休眠模式,而后期我们可能还会去唤醒这个进程,这个时候由于之间的栈帧被销毁了,所以已经不记得执行到哪句代码了,因此程序计数器存在的意义就是帮助没我们记住即将被执行的下一条指令的地址!举个更好理解的例子就是,比方说你正在数一堆书,当你数到50的时候,这个时候突然一个电话告诉你外卖到了,为了不让外卖员等太久,你需要暂停当前的工作马上下去,但是你又怕你数过的数字忘记了,所以你就把他记在本子上,当你取完外卖后,你就可以通过从本子上的数字继续往下数!) 5、内存指针: 包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针(我们一个可执行程序要运行还需要有对应的数据和代码,所以PCB对象必然需要有一个指针指向这块空间,当进程响应的时候能够及时找到,另一方面可能会存在多种数据类型的指针,为了满足不同场景下的需求——通过数据结构和算法) 6、上下文数据: 进程执行时处理器的寄存器中的数据[休学例子,要加图CPU,寄存器]。 7、I/O状态信息: 包括显示的I/O请求,分配给进程的I/O设备和被进程使用的文件列表。 8、记账信息: 可能包括处理器时间总和,使用的时钟数总和,时间限制,记账号等。 (可能会包含进程的一些运行时间,其实对进程的调度来说是有作用的,因为在多个进程的情况下,只有一个CPU,所以先将哪个进程放到CPU里其实是由调度器决定的,而调度器除了考虑进程状态和一些优先级之外,他会尽可能秉持着公平的原则,比如说有尽可能地优先让执行时间短的进程优先去调度。) 9、其他信息
我们再强调一遍:一个完整的进程=内核数据结构+代码和数据!
对于OS来讲一个进程的代码和数据并不重要,OS关心的是这个进程的PCB数据结构;因为每一个进程的代码和数据都不一样(学校是不管你平时怎么学习,只会根据你的成绩给予你奖励!);而OS有了PCB数据结构就可以找到进程的代码块和数据;
举个例子:当HR筛选人才时,是通过简历来挑选中意的人才的,并不是在茫茫人海中招人的,HR通过你的一份合格的简历上的电话就可以找到你,然后安排面试!
但是往往加载的进程并不是一个两个,而是很多的进程,所以使用一种合适的数据结构在复杂的场景中更好的调度各个数据就显得尤为重要!
在我们的Linux中task_struct主要是以双链表的形式组织起来,你可能会疑惑,使用一个顺序表来存储不是更好吗?
其实在OS内部对于进程的管理方式并没有像我们以前学的数据结构那么纯粹,他的场景会更加复杂,也就是说该进程可能会需要根据不同的需求被存储在队列中、双链表中、二叉树中、栈中……所以将进程按照节点的方式链接起来其实会更方便我们将这个进程放在不同的数据结构中,然后我们可以通过对应的指针信息来讲他们更好地管理起来。
比如HR在筛选简历的时候,会把优秀建立单独按照优秀程度放在一边,这个过程可能会多次对数据删除和插入,使用线性表就显得十分不友好了!而使用链表只需要通过改变指针,就可以灵活的操作!
当然对进程管理工作取决于你把他放入哪个正在被组织的数据结构中,因为不同的数据结构有不同的特点,所以背后对应的就是不同的算法,而不同的算法对应的就是不同的应用场景。
我们电脑开机,其实就是把OS从外设加载到内存中,因为只有在内存中才能对进程管理!
在Windows上我们可以直接打开任务管理器进行查看正在运行的进程;
我们也能清楚的看到,各个进程的属性(CPU,内存,磁盘...)这不就是我们刚才说的OS对进程的PCB管理吗?
在Linux上使用指令
ps -ajx--查看所有进程
我们可以写一个程序来查看进程;
这里我写了个死循环程序来查看正在运行的code进程 ;
运行可执行程序后,在打开一个xshell到此目录执行指令ps ajx | grep code
我们会发现有两个code进程,为什么呢?
第一行就是正在执行的可执行程序code,状态是R+(运行状态); 第二行其实是我们刚才使用的grep 指令,我们的指令本身也是一个进程哦!
对于死循环的程序是一直会进行下去的,我们可以使用指令来"杀掉他"!
强制刹进程指令:kill -9 进程的PID
/proc目录里面存储都是内存级的文件!!在关机时会消失,开机时又会出现,他是对动态运行的所有进程的一个可视化信息!!
其中以数字命名的文件夹就是对应进程的PID,里面包含进程的各种信息;
1.其中cwd是当前进程的工作目录,所以为什么我们使用文件的相对路径为什么是莫问当前路径的,还有C程序中fopen的文件是当前目录下的,这就是原因! 2.其中exe说明当前进程是可以找到对应的代码的;
PID:process ID 该进程的ID PPID:parent process ID 父进程的ID
我们会发现我们可执行程序的父进程是 -bash命令行。
为什么会这样去设计呢??我们都知道其实bash命令行的作用一方面是解释命令,另一方面是为了阻止用户的非法操作,而我们每一条指令或者是可执行程序其实都是一个进程,因此我们的bash命令行其实是先创建了一个子进程去执行对应的指令,然后自己就可以继续去帮助别的指令创建进程,这样的好处就是一旦子进程崩了,并不会影响bash命令行进程处理其他的指令!
我们可以使用系统接口来获取当前进程的PID;
先看一下接口说明:
写一个程序来调用接口查看pid;
这里我每隔一秒打印一行PID和PPID;
结论:每次执行程序,分配的PID都不一样,但是父进程PPID是一样的,其实都是Bash进程;
之后,我重新启动了机器!
发现在重启后,PPID竟然改变了!
结论:Bash(命令行)是机器启动时就创建好的进程,直至关机PID都不会变 !
fork的功能是创建子进程,如果创建成功给子进程的返回值是0,给父进程的返回值是子进程的PID,如果子进程创建失败,就会返回一个负数
你没有听错,fork有两个返回值!
我们可以写个程序查看下!
我们竟然发现,if和else if竟然在同时运行!这也验证了fork的确有两个返回值,虽然if 和else if 同时执行了,但是却是在不同的进程中;
目的:让父子进程执行不同的事情
在实际项目中,我们可能会需要多块代码同时执行不同的操作,就比如我们打开了shell,而Bash是所有进程的父进程,我们使用的各个指令都是Bash创建的子进程,这么做的目的是可以使进程建互不影响;
fork为什么给子进程返回0,其实对于子进程来说只是一个标识作用,他可以使用ps 查看自己的PID和父进程的PID;
fork为什么给父进程返回子进程的PID;因为父进程需要对创建的子进程进行管理,因此就需要拿到子进程的PID(标识子进程的唯一性);
fork进程创建了一个子进程->进程=内核数据结构+数据和代码块;
->创建一个task_struct结构体用于描述子进程; ->子进程中的代码块数据指针指向的地址与父进程的该指针相同(父子进程的代码是共享的,因为从创建子进程的开始,代码就已经开始执行了,是不可修改的); ->根据根据需求发生写时拷贝;
什么是写时拷贝?
对于父子进程的代码来说都是一样的,不可修改的,但是对于数据就是可以修改的了; 我定义了一个全局变量g_val=20;在父进程中我没有修改g_val,但是我在子进程中将g_val修改为了10; 写时拷贝的关键就在于此进程对数据进行了修改,那么就会单独的拷贝数据到另一块空间上;而其他没有修改的数据父子进程依旧是共享的; 在修改数据之前父子进程的代码和数据都是共享的,只要我们修改了数据,OS就会让子进程等待一下,为数据单独开辟一块物理内存空间;这就是数据层面的写时拷贝;
我们现在分析一下fork函数->
我们知道fork函数是拷贝父进程的代码和数据,创建一个新的task_struct,所以这里就有了先后顺序问题;
是先执行完函数返回值之后才创建好了子进程还是在返回值之前就创还能好了子进程呢?
实际上在fork函数内部return id之前,就已经为子进程准备好了一些工作,也就是说在fork结束,return 之前子进程就已经开始执行了,而这时父子进程的fork就会各自执行fork函数的return id语句;
所以!有了两次返回值;
本质是发生了写实拷贝!
fork给id变量返回的值并不相同,也就是子进程的fork返回值与父进程的不相同,正好与我们上面提到的写实拷贝一致,修改了父进程的数据,就会单独开辟空间储存新数据;
但是要注意的是,子进程被创建好之后,究竟是先运行子进程还是先运行父进程,其实是由调度器(因为CPU只有一个,所以他的作用就是在当前进程中选一个合适的放到CPU中,进程之间会竞争CPU资源,所以调度器会遵循着自己的一套原则来保证进程之间的公平性)去决定的!!
答案是不会,但是会发生拷贝到子进程中!
按照推测"执行此处"只会打印一次
为什么出现了两次"执行此处"呢?
原因是printf默认是行刷新,也就是遇到回车才会刷新缓冲区,而我们打代码中中并没有回车,数据只是写入了缓冲区中没有刷出来,fork执行完,子进程会把缓冲区的内容也拷贝过去,所以各自在进程结束的时候就会把缓冲区刷新,因此出现了两次"执行此处",并不是子进程执行了printf语句;
下面我们加上\n
父进程会自动把"执行此处"从缓冲区中刷新,而子进程是不会执行fork之前的语句的,所以只打印了一次"执行此处"!;
前面我们知道我们使用的指令本质也是写好的可执行程序,执行的时候就是一个进程; 而他们的父进程都是Bash,因此Bash的工作就是创建子进程执行指令,而不是Bash自己去执指令, 这样做的好处是即使指令执行失败,Bash也不会收到影响;体现了进程的独立性 这也是Bash为什么叫做解释器的原因;