作者 | 字节跳动技术团队
简 介
CloudWeGo - Shmipc 是字节跳动服务框架团队研发的高性能进程间通讯库,它基于共享内存构建,具有零拷贝的特点,同时它引入的同步机制具有批量收割 IO 的能力,相对于其他进程间通讯方式能明显提升性能。在字节内部,Shmipc 应用于 Service Mesh 场景下,mesh proxy 进程与业务逻辑进程、与通用 sidecar 进程的通讯, 在大包场景和 IO 密集型场景能够取得显著的性能收益。
开源社区关于这方面的资料不多,Shmipc 的开源希望能为社区贡献一份力量,提供一份参考。本文主要介绍 Shmipc 的一些主要的设计思路以及后续的演进规划。
go 版本实现: https://github.com/cloudwego/shmipc-go 设计细节: https://github.com/cloudwego/shmipc-spec
项目背景
在字节,Service Mesh 在落地的过程中进行了大量的性能优化工作,其中 Service Mesh 的流量劫持是通过,mesh proxy 与微服务框架约定的地址进行进程间通讯来完成,性能会优于开源方案中的 iptables。但常规的优化手段已不能带来明显的性能提升。于是我们把目光放到了进程间通讯上,Shmipc 由此诞生。
设计思路
零拷贝
在生产环境中比较广泛使用的进程间通讯方式是 unix domain socket 与 TCP loopback(localhost:$PORT),两者从 benchmark 看性能差异不大。从技术细节看,都需要将通讯的数据在用户态和内核态之间进行拷贝。在 RPC 场景下,一次 RPC 流程中在进程间通讯上会有四次的内存拷贝,Request 路径两次, Response 路径两次。
虽然现代 CPU 上进行顺序的 copy 非常快,但如果我们能够消除这多达四次的内存拷贝,在大包场景下也能在一定程度上节省 CPU 使用。而基于共享内存通讯零拷贝的特性,我们可以很容易达成这一点。但为了达到零拷贝的效果,围绕共享内存本身,还会产生有许多额外的工作,比如:
同步机制
分场景考虑:
总的来说按需实时同步和定期同步需要系统调用来完成,轮询同步不需要系统调用,但需要常态跑满一个 CPU 核心。
批量收割 IO
在线场景中按需实时同步,每次数据写入都需要进行一次进行进程同步(下图中的 4),虽然延迟问题解决了,但在性能上,需要交互的数据包需要大于一个比较大的阈值,零拷贝带来的收益才能突显。因此在共享内存中构造了一个 IO 队列的来完成批量收割 IO,使其在小包 IO 密集场景也能显现收益。核心思想是:当一个进程把请求写入 IO 队列后,会给另外一个进程发通知来处理。那么在下一个请求进来时(对应下图中的 IOEvent 2~N,一个 IOEvent 可以独立描述一个请求在共享内存中的位置),如果对端进程还在处理 IO 队列中的请求,那么就不必进行通知。因此,IO 越密集,批处理效果就越好。
另外就是离线场景中,定时同步本身就是批量处理 IO 的,批处理的效果能够有效减少进程同步带来的系统调用,sleep 间隔越高,进程同步的开销就越低。
对于轮询同步则不需要考虑批量收割 IO,因为这个机制本身是为了减少进程同步开销。而轮询同步直接占满一个 CPU 核心,相当于默认把同步机制的开销拉满以获取极低的同步延迟。
性能收益
Benchmark
其中 X 轴为数据包大小,Y 轴为一次 Ping-Pong 的耗时,单位为微秒,越小越好。可以看到在小包场景下,Shmipc 相对于 unix domain socket 也能获得一些收益,并且随着包大小越大性能越好。
数据源:git clone https://github.com/cloudwego/shmipc-go && go test -bench=BenchmarkParallelPingPong -run BenchmarkParallelPingPong
生产环境
在字节生产环境的 Service Mesh 生态中,我们在 3000+ 服务、100w+ 实例上应用了 Shmipc。不同的业务场景显现出不同的收益,其中收益最高的风控 业务降低了整体 24% 的资源使用,当然也有无明显收益的甚至劣化的场景出现。但在大包和 IO 密集型场景均能显现出显著收益。
采坑记录
在字节实际落地的过程中我们也踩了一些坑,导致一些线上事故,比较具有参考价值。
后续演进
总 结
希望本文能让大家对于 Shmipc 有一个初步的了解,知晓其设计原理,更多实现细节以及使用方法请参考文章开头给出的项目地址。欢迎各位感兴趣的同学向 Shmipc 项目提交 Issue 和 PR,共同建设 CloudWeGo 开源社区,也期望 Shmipc 在 IPC 领域助力越来越多开发者和企业构建高性能云原生架构。
今日好文推荐
警方通报网传中电科加班事件调查结果;拼多多解散恶意功能团队;逼死程序员诈骗千万的“翟欣欣案”一审宣判 | Q资讯
谷歌正式发布WebGPU!90多位贡献者研发6年,浏览器终于可以利用底层硬件了