本文以爱奇艺开源的网络协程库(https://github.com/iqiyi/libfiber )为例,讲解网络协程的设计原理、编程实践、性能优化等方面内容。
早年间, 支持多个用户并发访问的服务应用,往往采用多进程方式,即针对每一个 TCP 网络连接创建一个服务进程。在 2000 年左右,比较流行使用 CGI 方式编写 Web 服务,当时人们用的比较多的 Web 服务器是基于多进程模式开发的 Apache1.3.x 系列,因为进程占用系统资源较多,所以人们开始使用多线程方式编写 Web 应用服务,线程占用的资源更少,这使单台服务器支撑的用户并发度提高了,但依然存在资源浪费的问题。因为在多进程或多线程编程方式下,均采用了阻塞通信方式,对于慢连接请求,会使服务端的进程或线程因『等待』客户端的请求数据而不能做别的事情,白白浪费了操作系统的调度时间和系统资源。这种一对一的服务方式在广域网的环境下显示变得不够廉价,于是人们开始采用非阻塞网络编程方式来提升服务端网络并发度,比较著名的 Web 服务器 Nginx 就是非阻塞通信服务的典型代表,另外还有象 Java Netty 这样的非阻塞网络开发库。
非阻塞网络编程一直以高并发和高难度而著称,这种编程方式虽然有效的提升了服务器的利用率和处理能力,但却对广大程序员提出了较大挑战,因为非阻塞 IO 的编程方式往往会把业务逻辑分隔的支离破碎,需要在通信过程中记录大量的中间状态,而且还需要处理各种异常情况,最终带来的后果就是开发周期长、复杂度高,而且难于维护。
阻塞式网络编程实现容易但并发度不高,非阻塞网络编程并发度高但编写难,针对这两种网络编程方式的优缺点,人们提出了使用协程方式编写网络程序的思想。其实协程本身并不是一个新概念,早在2000年前Windows NT 上就出现了『纤程』的 API,号称可以创建成千上万个纤程来处理业务,在 BSD Unix 上可以用来实现协程切换的 API <ucontext.h> 在 2002 年就已经存在了,当然另外用于上下文跳转的 API<setjmp.h> 出现的更早(1993年)。虽然协程的概念出现的较早,但人们终不能发现其广泛的应用场景,象『longjmp』这些 API 多用在一些异常跳转上,如 Postfix(著名的邮件MTA)在处理网络异常时用其实现程序跳转。直到 Russ Cox 在 Go 语言中加入了协程(Goroutine)的功能,使用协程进行高并发网络编程才变得的简单易行。
Russ Cox 早在 2002 年就编写了一个简单的网络协程库 libtask(https://swtch.com/libtask/ ),代码量不多,却可以使我们比较清晰地看到『通过使网络 IO 协程化,使编写高并发网络程序变得如此简单』。
网络协程的本质是将应用层的阻塞式 IO 过程在底层转换成非阻塞 IO 过程,并通过程序运行栈的上下文切换使 IO 准备就绪的协程交替运行,从而达到以简单方式编写高并发网络程序的目的。既然网络协程的底层也是非阻塞IO过程,所以在介绍网络协程基本原理前,我们先了解一下非阻塞网络通信的基本过程。
下面给出了非阻塞网络编程的常见设计方式:
下图以非阻塞读为例展示了整个异步非阻塞读及回调处理过程:
相对于阻塞式读的处理过程,非阻塞过程要复杂很多:
(一)概念: 在了解使用协程编写网络程序之前,需要先了解几个概念:
(二)协程的切换过程
既然操作系统进行任务调度的最小单元是线程,所以操作系统无法感知协程的存在,自然也就无法对其进行调度;
因此,存在于线程中的大量协程需要相互协作,合理地占用 CPU 时间片,在合适的运行点(如:网络阻塞点)主动让出 CPU,给其它协程提供运行的机会,这也正是『协程』这一概念的由来。每个协程一般都会经历如下过程:
协程之间的切换一般可分为『星形切换』和『环形切换』,参照下图:
当有大量的协程需要运行时,在『环形切换』模式下,前一个协程运行完毕后直接『唤醒』并切换至下一个协程,而无需象『星形切换』那样先切换至调度原点,再从调度原点来『唤醒』下一个协程;因『环形切换』比『星形切换』节省了一次上下文的切换过程,所以『环形切换』方式的切换效率更高。
(三)网络过程协程化
下图是使用网络过程协程化示意图:
在网络协程库中,内部有一个缺省的IO调度协程,其负责处理与网络IO相关的协程调度过程,故称之为IO调度协程:
(四)网络协程示例
下面给出一个使用协程方式编写的网络服务器程序(更多示例参见:https://github.com/iqiyi/libfiber/tree/master/samples ):
该网络协程服务器程序处理流程为:
从该例子可以看出,网络协程的处理过程都是顺序方式,比较符合人的思维习惯;我们很容易将该例子改成线程方式,处理逻辑和协程方式相似,但协程方式更加轻量、占用资源更少,并发能力更强。
简单的表面必定隐藏着复杂的底层设计,因为网络协程过程在底层还是需要转为『非阻塞』处理过程,只是使用者并未感知而已。
在介绍了网络协程的基本原理后,本章节主要介绍 libfiber 网络协程的核心设计要点,为网络协程应用实践化提供了基本的设计思路。
libfiber 采用了单线程调度方式,主要是为了避免设计上的复杂度及效率上的影响。
如果设计成 多线程调度模式 ,则必须首先需要考虑如下几点:
当然,设计成 单线程调度 也需解决如下问题:
(1)、如何有效地使用多核:
在单线程调度方式下,该线程内的多个协程在运行时仅能使用单核,解决方案为:
(2)、多个线程之间的资源共享:
因为协程调度是不跨线程的,在设计协程互斥锁时需要考虑:
libfiber 的事件引擎支持当今主流的操作系统,从而为 libfiber 的跨平台特性提供了有力的支撑,下面为 libfiber 事件引擎所支持的平台:
Linux:sekect/poll/epoll,epoll 为 Linux 内核级事件引擎,采用事件触发机制,不象 select/poll 的轮循方式,所以 epoll 在处理大并发网络连接时运行效率更高;BSD/MacOS:select/poll/kqueue,其中kqueue 为内核级事件引擎,在处理高并发连接时具有更高的性能;
Windows: select/poll/iocp/Windows 窗口消息,其中 iocp 为 Windows 平台下的内核级高效事件引擎;
libfiber 支持采用界面消息引擎做为底层的事件引擎,这样在编写 Windows 界面程序的网络模块时便可以使用协程方式了,之前人们在 Windows 平台编写界面程序的网络模块时,一般采用如下两种方式:
(1)、采用非阻塞方式,网络模块与界面模块在同一线程中;
(2)、将网络模块放到独立的线程中运行,运行结果通过界面消息『传递』到界面线程中;
现在 libfiber 支持 Windows 界面消息引擎,我们就可以在界面线程中直接创建网络协程,直接进行阻塞式网络编程。
(Windows 界面网络协程示例:https://github.com/iqiyi/libfiber/tree/master/samples/WinEchod)
大家在谈论网络协程程序的运行效率时,往往只重视协程的切换效率,却忽视了事件引擎对于性能影响的重要性,虽然现在很网络协程库所采用的事件引擎都是内核级的,但仍需要合理使用才能发挥其最佳性能。
在使用 libfiber 的早期版本编译网络协程服务程序时,虽然在 Linux 平台上也是采用了 epoll 事件引擎,但在对网络协程服务程序进行性能压测(使用用系统命令 『# perf top -p pid』 观察运行状态)时,却发现 epoll_ctl API 占用了较高的 CPU,分析原因是 epoll_ctl 使用次数过多导致的:因为 epoll_ctl 内部在对套接字句柄进行添加、修改或删除事件操作时,需要先通过红黑树的查找算法找到其对应的内部套接字对象(红黑树的查找效率并不是O (1)的),如果 epoll_ctl 的调用次数过多必然会造成 CPU 的占用较高。
因为 TCP 数据在传输时是流式的,这就意味着数据接收者经常需要多次读操作才能获得完整的数据,反映到网络协程处理流程上,如下图所示:
仔细观察上面处理流程,可以发现在图中的标注4(唤醒协程)和标注5(挂起协程)之间的两个事件操作:标注2取消读事件 与 标注3注册读事件,再结合 标注1注册读事件,完全可以把注2和标注3处的两个事件取消,因为标注1至标注3的目标是 注册读事件。最后,通过缓存事件操作的中间状态,合并中间态的事件操作过程,使 libfiber 的 IO 处理性能提升 20% 左右。
下图给出了采用 libfiber 编写的回显服务器与采用其它网络协程库编写的回显服务器的性能对比(对比单核条件下的 IO 处理能力):
在 libfiber 中之所以可以针对中间的事件操作过程进行合并处理,主要是因为 libfiber 的调度过程是单线程模式的,如果想要在多线程调度器中合并中间态的事件操作则要难很多:在多线程调度过程中,当套接字所绑定的协程因IO 可读被唤醒时,假设不取消该套接字的读事件,则该协程被某个线程『拿走』后,恰巧该套接字又收到新数据,内核会再次触发事件引擎,协程调度器被唤醒,此时协程调度器也许就不知该如何处理了。
对于象 libfiber 这样的采用单线程调度方案的协程库而言,如果互斥加锁过程仅限于同一个调度线程内部,则实现一个协程互斥锁是比较容易的,下图为 libfiber 中单线程内部使用的协程互斥锁的处理流程图(参考源文件:fiber_lock.c):
同一线程内的协程在等待锁资源时,该协程将被挂起并被加入锁等待队列中,当加锁协程解锁后会唤醒锁等待队列中的头部协程,单线程内部的协程互斥锁正是利用了协程的挂起和唤醒机制。
虽然 libfiber 的协程调度器是单线程模式的,但却可以启动多个线程使每个线程运行独立的协程调度器,如果一些资源需要在多个线程中的协程间共享,则就需要有一把可以跨线程使用的协程互斥锁。将 libfiber 应用在多线程的简单场景时,直接使用系统提供的线程锁就可以解决很多问题,但线程锁当遇到如下场景时就显得无能为力:
上述显示了系统线程互斥锁在 libfiber 多线程使用场景中遇到的死锁问题:
当线程A中的协程A2 要对线程锁2加锁而阻塞时,则会使线程A的协程调度器阻塞,从而导致线程A中的所有协程因宿主线程A被操作系统挂起而停止运行,同样,线程B 也会因协程B1 阻塞在线程锁1上而被阻塞,最终造成了死锁问题。
使用系统线程锁时产生上述死锁的根本原因是单线程调度机制以及操作系统的最小调度单元是线程,系统对于协程是无感知的。因此,在 libfiber 中专门设计了可用于在线程的协程之间使用的事件互斥锁(源码参见 fiber_event.c),其设计原理如下:
该可用于在线程之间的协程进行互斥的事件互斥锁的处理流程为:
在上述事件锁的加/解锁处理过程中,使用原子数和IO管道的好处是:
在使用线程编程时,都知道线程条件变量的价值:在线程之间传递消息时往往需要组合线程条件变量和线程锁。因此,在 libfiber 中也设计了协程条件变量(源码见 fiber_cond.c),通过组合使用 libfiber 中的协程事件锁(fiber_event.c)和协程条件变量,用户便可以编写出用于在线程之间、线程与协程之间、线程内的协程之间、线程间的协程之间进行消息传递的消息队列。下图为使用 libfiber 中协程条件变量时的交互过程:
这是一个典型的 生产者-消费者 问题,通过组合使用协程条件变量和事件锁可以轻松实现。
使用网络协程库编写的网络服务很容易实现高并发功能,可以接入大量的客户端连接,但是后台系统(如:数据库)却未必能支持高并发,即使是支持高并的缓存系统(如 Redis),当网络连接数比较高时性能也会下降,所以协程服务模块不能将前端的并发压力传递到后端,给后台系统造成很大压力,我们需要提供一种高并发连接卸载机制,以保证后台系统可以平稳地运行,在 libfiber 中提供了协程信号量(源码见:fiber_semc.c)。
下面是使用 libfiber 中的协程信号量对于后台系统的并发连接进行卸载保护的示意图:
当有大量协程需要访问后台系统时,通过协程信号量将大量的协程『挡在外面』,只允许部分协程与后端系统建立连接。
注: 目前 libfiber 的协程信号量仅用在同一线程内部,还不能跨线程使用,要想在多线程环境中使用,需在每个线程内部创建独立的协程信号量。
网络协程既然面向网络应用场景,自然离不开域名的协程化支持,现在很多网络协程库的设计者往往忽视了这一点,有些网络协程库在使用系统 API 进行域名解析时为了防止阻塞协程调度器,将域名解析过程(即调用gethostbyname/getaddrinfo 等系统 API)扔给独立的线程去执行,当域名解析并发量较大时必然会造成很多线程资源被占用。
在 libfiber 中集成了第三方 dns 源码,实现了域名解析过程的协程化,占用更低的系统资源,基本满足了大部分服务端应用系统对于域名解析的需求。
在网络协程广泛使用前,很多网络库很早就存在了,并且大部分这些网络库都是阻塞式的,要改造这些网络库使之协程化的成本是非常巨大的,我们不可能采用协程方式将这些网络库重新实现一遍,目前一个广泛采用的方案是 Hook 与 IO 及网络相关的系统中 API,在 Unix 平台上 Hook 系统 API 相对简单,在初始化时,先加载并保留系统 API 的原始地址,然后编写一个与系统 API 函数名相同且参数也相同的函数,将这段代码与应用代码一起编译,则编译器会优先使用这些 Hooked API,下面的代码给出了在 Unix 平台上 Hook 系统 API 的简单示例:
在 libfiber 中Hook 了大部分与 IO 及网络相关的系统 API,下面列出 libfiber 所 Hook 的系统 API:
IO 相关 API
网络相关 API
通过 Hook API 方式,libfiber 已经可以使 Mysql 客户端库、一些 HTTP 通信库及 Redis 客户端库的网络通信协程化,这样在使用网络协程编写服务端应用程序时,大大降低了编程复杂度及改造成本。
为了使爱奇艺用户可以快速流畅地观看视频内容,就需要 CDN 系统尽量将数据缓存在 CDN 边缘节点,使用户就近访问,但因为边缘节点的存储容量有限、数据淘汰等原因,总会有一些数据在边缘节点不存在,当用户访问这些数据时,便需要回源软件去源站请求数据并下载到本地,在爱奇艺自建 CDN 系统中此回源软件的名字为『奇迅』,相对于一些开源的回源缓存软件(如:Squid,Apache Traffic,Nginx 等),『奇迅』需要解决以下问题:
下面为爱奇艺自研缓存与回源软件『奇迅』的软件架构及特点描述:
在爱奇艺的自建 CDN 系统中,作为数据回源及本地缓存的核心软件,奇迅承担了重要角色,该模块采用多线程多协程的软件架构设计,如下所示奇迅回源架构设计的特点总结如下:
特性 | 说明 |
---|---|
高并发 | 采用网络协程方式,支持高并发接入,同时简化程序设计 |
高性能 | 采用线程池 + 协程 + 连接池 + 内存池技术,提高业务处理性能 |
高吞吐 | 采用磁盘内存映射及零拷贝技术,提升磁盘及网络 IO 吞吐能力 |
低回源 | 合并相同请求,支持部分回源及部分缓存,大大降低回源带宽 |
开播快 | 采用流式数据读取方式,提升视频开播速度 |
可扩展 | 模块化分层设计,易于扩展新功能 |
易维护 | 采用统一服务器编程框架,易管理,好维护 |
奇迅的前后端通信模块均采用网络协程方式,分为前端连接接入层和后端下载任务层,为了有效地使用多核,前后端模块均启动多个线程(每个线程运行一个独立的协程调度器);对于前端连接接入模块,由于采用协程方式,所以:
对于后端下载模块,由于采用协程方式,在数据回源时允许建立更多的并发连接去多个源站下载数据,从而获得更快的下载速度;同时,为了节省带宽,奇迅采用合并回源策略,即当前端多个客户端请求同一段数据时,下载模块将会合并相同的请求,向源站发起一份数据请求,在合并回源请求过程中,因数据共享原因,必然存在如 “3.3.2、多线程之间的协程互斥”章节所提到的多个线程之间的协程同步互斥的需求,通过使用 libfiber 中的事件锁完美地解决了一这需求(其实,当初事件锁就是为了满足奇迅的这一需求而设计编写)。
采用协程方式编写的回源与缓存软件『奇迅』上线后,爱奇艺自建CDN视频卡顿比小于 2%,CDN 视频回源带宽小于 1%。
随着爱奇艺用户规模的迅速壮大,对于像 DNS 服务这样非常重要的基础设施的要求也越来越高,开源软件(如:Bind)已经远远不能满足要求,下面是项目初期对于自研 DNS 系统的基本要求:
下面是爱奇艺自研 DNS 的软件架构及特点介绍:
DNS 做为互联网的基础设施,在整个互联网中发挥着举足轻重的作用,爱奇艺为了满足自身业务的发展需要,自研了高性能 DNS(简称 HPDNS),该 DNS 的软件架构如下图所示:
HPDNS 服务的特点如下:
优点 | 说明 |
---|---|
高性能 | 启用 Linux 3.0 内核的 REUSEPORT 功能,提升多线程并行收发包的能力采用 Linux 3.0 内核的 recvmmsg/sendmmsg API,提升单次 IO 数据包收发能力采用内存预分配策略,减少内存动态分配/释放时的“锁”冲突针对 TCP 服务模式,采用网络协程框架,最大化 TCP 并发能力 |
高可用 | 采用RCU(Read Copy Update)方式更新视图数据及配置项,无需停止服务,且不影响性能网卡 IP 地址变化自动感知(即可自动添加新 IP 或摘除老IP而不必停止服务)采用 Keepalived 保证服务高可用 |
易管理 | 由 master 服务管理模块管理 DNS 进程,控制 DNS 进程的启动、停止、重读配置/数据、异常重启及异常报警等 |
由于 DNS 协议要求 DNS 服务端需要同时支持 UDP 及 TCP 两种通信方式,除了要求 UDP 模块具备高性能外,对 TCP 模块也要求支持高并发及高性能,该模块的网络通信部分使用 libfiber 编写,从而支持更高的并发连接,同时具备更高的性能,又因启用多个线程调度器,从而可以更加方便地使用多核。
爱奇艺自研的高性能 DNS 的单机处理能力(非 DPDK 版本)可以达到 200 万次/秒以上;将业务域名变更后的信息同步至全网自建 DNS 节点可以在一分钟内完成。
本文讲述了爱奇艺开源项目 libfiber 网络协程库的设计原理及核心设计要点,方便读者了解网络协程的设计原理及运行机制,做到知其然且知其所以然;还从爱奇艺自身的项目实践出发,总结了在应用网络协程编程时遇到的问题及解决方案,使读者能够更加全面地了解编写网络协程类应用的注意事项。
领取专属 10元无门槛券
私享最新 技术干货