进程是操作系统进行资源分配的基本单位,每个进程都有自己的独立内存空间。由于进程比较重量,占据独立的内存,所以上下文进程间的切换开销(栈、寄存器、虚拟内存、文件句柄等)比较大,但相对比较稳定安全。
线程又叫做轻量级进程,是进程的一个实体,是处理器任务调度和执行的基本单位位。它是比进程更小的能独立运行的基本单位。线程只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源。
对于操作系统来说,一个任务就是一个进程(Process)。比如打开一个浏览器就是启动一个浏览器进程,打开一个记事本就启动了一个记事本进程,打开两个记事本就启动了两个记事本进程,打开一个Word就启动了一个Word进程。
有些进程还不止同时干一件事,比如Word,它可以同时进行打字、拼写检查、打印等事情。在一个进程内部,要同时干多件事,就需要同时运行多个“子任务”,进程内的这些“子任务”称为线程(Thread)。
由于每个进程至少要干一件事,所以,一个进程至少有一个线程。当然,像Word这种复杂的进程可以有多个线程,多个线程可以同时执行,多线程的执行方式和多进程是一样的,也是由操作系统在多个线程之间快速切换,让每个线程都短暂地交替运行,看起来就像同时执行一样。
协程,又称微线程,是一种用户态的轻量级线程,协程的调度完全由用户控制(也就是在用户态执行)。协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到线程的堆区,在切回来的时候,恢复先前保存的寄存器上下文和栈,直接操作栈则基本没有内核切换的开销,可以不加锁的访问全局变量,所以上下文的切换非常快。
如果对内核态用户态不了解的话,可以先看博客《一文理解JVM线程属于用户态还是内核态》
协程最大的优势就是协程极高的执行效率。因为子程序切换不是线程切换,而是由程序自身控制,因此,没有线程切换的开销,和线程切换相比,线程数量越多,协程的性能优势就越明显。不需要多线程的锁机制,因为只有一个线程,也不存在同时写变量冲突,在协程中控制共享资源不加锁,只需要判断状态就好了,所以执行效率比多线程高很多。此外,一个线程的内存在MB级别,而协程只需要KB级别。
每个线程都是一个轻量级进程(Light Weight Process),都有自己的唯一PID和一个TGID(Thread group ID)。TGID是启动整个进程的thread的PID。
例如,当一个进程被创建的时候,它其实是一个PID和TGID数值相同线程。当线程A启动线程B时,线程B会有自己的唯一PID,但它的TGID会从A继承而来。这样通过PID线程可以独立得到调度,而相同的TGID可以知道哪些线程属于同一个进程,这样可以共享资源(RAM,虚拟内存、文件等)。
线程进程的区别体现在6个方面:
每个进程各自有不同的用户地址空间,任何一个进程的全局变量在另一个进程中都看不到,所以进程之间要交换数据必须通过内核,在内核中开辟一块缓冲区,进程1把数据从用户空间拷到内核缓冲区,进程2再从内核缓冲区把数据读走,内核提供的这种机制称为进程间通信(IPC,InterProcess Communication)
管道,通常指无名管道,是UNIX系统IPC最古老的形式。
管道是一种半双工(即数据只能在一个方向上流动)的通信方式,数据只能单向流动,而且只能在具有亲缘关系的进程间使用。
进程的亲缘关系指的是父子进程或者兄弟进程关系。
当一个管道建立时,它会创建两个文件描述符:fd[0]为读而打开,fd[1]为写而打开。
特点:
FIFO,也称为命名管道,它是一种文件类型,也是半双工的通信方式。多个进程都可以通过一个约定好的名字找到同一个管道。FIFO允许无亲缘关系进程间的通信。FIFO的通信方式类似于在进程中使用文件来传输数据,只不过FIFO类型文件同时具有管道的特性。在数据读出时,FIFO管道中同时清除数据,并且“先进先出”。
消息队列是由消息的链表,存放在内核中并由消息队列标识符标识。消息队列克服了信号传递信息少、管道只能承载无格式字节流以及缓冲区大小受限等缺点。
特点:
但是当发送到消息队列的信息量大或操作频繁的场合,需要拷贝的时间也就越多,此时可以采用共享内存通信。
共享内存就是映射一段能被其他进程所访问的内存,这段共享内存由一个进程创建,但多个进程都可以访问。
共享内存是最快的IPC方式,它是针对其他进程间通信方式运行效率低而专门设计的。它往往与其他通信机制(如信号量)配合使用来实现进程间的同步和通信。
特点:
信号量是一个计数器,可以用来控制多个进程对共享资源的访问。它常作为一种锁机制,防止某进程正在访问共享资源时,其他进程也访问该资源。因此,主要作为进程间以及同一进程内不同线程之间的同步手段。
信号量主要实现进程之间的同步和互斥,而不是存储通信内容。
信号量定义了两种操作,p操作和v操作,p操作为申请资源,会将数值减去M,表示这部分被他使用了,其他进程暂时不能用。v操作是归还资源操作,告知归还了资源可以用这部分。
信号是软件中断产生,用于进程间异步传递信息。信号可以用来直接进行用户空间进程和内核进程之间的交互,内核进程也可以利用它来通知用户空间进程发生了哪些系统事件。
一般在shell中操作,进程获取信号进行处理,一共有64种信号,在shell中输入 kill -l 可查阅
套接字(有的时候被译为插座)也是一种进程间通信机制,与其他通信机制不同的是,套接字允许两个进程进行通讯,这两个进程可能运行在同一个机器上,也可能运行在不同机器上。
相对于共享内存可以多对多的读取与写入,套接字只能一对一。此外由于序列化等操作占用大量资源,相对于共享内存,套接字更适合传输少量数据。
锁机制包括互斥锁、条件变量、读写锁。
有关Java的锁机制,可以点击查看《详解Java多线程锁之synchronized》和《详解Java多线程锁之Lock和ReadWriteLock》
有关条件变量,可以点击查看《Java多线程的可见性与有序性》中有关volatile的讲解。
可以查看这篇博客《快速了解基于AQS实现的Java并发工具类》中有关Semaphore的讲解,感受下信号量如何在java线程通信中的使用。
可以查看这篇博客:《彻底搞懂Java的等待-通知(wait-notify)机制》
与线程不同,协程使用程序自定义的调度器进行调度,因此更容易控制协程之间的执行顺序,要想充分利用协程的调度模型,有一个完备的通信机制是很重要的。它主要应该有以下的功能:
能完成这样任务的模型很多,原理也不尽相同,但思路其实和线程的通信方式大体相同,这里以后再单独讲解。
Nginx的进程通信分为三种类别:linux系统与Nginx通信(信号),master进程与worker进程通信(套接字),worker进程间通信(共享内存)。
各种状态的意义:
状态变化事件:
进程状态变化中,还有一种状态叫挂起态,挂起态代表该进程没有占用内存空间,这跟阻塞状态是不一样。
挂起和阻塞的区别:
挂起态可以分为下面两种:
参考文档: