

MetisX成立于2022年,总部位于首尔。致力于开发基于Compute Express Link (CXL)技术的智能内存解决方案,旨在推动数据为中心的计算发展。MetisX专注于内存和内存为中心的计算架构,其产品通过CXL协议扩展内存容量和带宽,而不增加CPU中的内存通道数量,从而提高系统效率。

1. AI时代:
现代神经网络的核心思想自1980年代以来并没有显著变化。当前的AI系统仍然基于几十年前提出的深度学习和反向传播等基础理论。
2. 性能提升的两个关键因素:
- 更大的数据集:更多的数据使模型的训练效果更好,预测更准确。
- 强大的计算能力:计算硬件(如GPU和TPU)的进步使复杂模型的训练时间大大缩短。
3. 数据驱动:
AI的进步依赖于数据,数据是AI模型成功的关键,特别是在深度学习领域,数据和存储能力至关重要。
4. Gartner十年科技趋势:
展示了2015-2024年间的科技趋势,从早期的物联网、AI、区块链等技术到最近的生成式AI、AI信任和可持续技术等。

1. 数据和AI模型规模的快速增长:
虽然数据量在迅速增加,但AI模型的增长速度更快。图表显示了AI模型参数数量的指数级增长,尤其是从2015年开始,模型大小每4个月翻倍。
2. 内存墙问题:
随着模型规模的增大,内存和计算资源的瓶颈(即“内存墙”)越来越严重,阻碍了性能的进一步提升。
- 带宽、延迟、容量问题限制了数据从内存到CPU的传输速度。
- 计算能力难以跟上数据和模型的增长。
- 高成本:内存非常昂贵,占据了服务器成本的很大一部分。
- 低利用率:内存利用率很低,造成资源浪费。
内存墙问题已经成为数据中心的一大难题,尤其是在处理规模庞大的AI模型时。
Note:继VAST在智能数据平台提出实时计算的远景,AI在业务场景可用性与数据现场的距离再次拉近,这对当前IT系统的性能和时延提出挑战,而“内存墙”是高性能场景绕不开的问题。

1. 当前架构的局限性:
- DIMM扩展限制:基于DIMM(双列直插式内存模块)的DRAM内存扩展受限,难以满足不断增长的需求。
- 效率低下:继续投资于DIMM的成本效益低,随着数据需求增长,传统内存结构难以有效应对。
- HBM(高带宽内存)的尺寸限制:虽然HBM具有较高的带宽,但其物理尺寸限制了在更大规模系统中的应用。
2. 未来的分解架构(Disaggregation):
- CXL的引入:通过CXL技术,数据中心可以将内存资源从CPU服务器中分解(Disaggregation),使得内存和计算资源之间的连接更加灵活,提升资源的利用效率。
- 内存服务器和GPU服务器:未来的架构中,CXL内存可以通过CXL交换机(CXL Switch)连接到多个CPU或GPU服务器,实现共享和高效的数据移动。
3. 瓶颈仍然是数据移动:虽然CXL可以显著提高内存的利用效率和扩展性,但数据移动依旧是一个主要瓶颈,尤其是在大规模AI和高性能计算应用中,数据传输速度对整体性能有着关键影响。
Note:关于数据移动,存储器厂商如Samsung在SSD主控上关注数据移动效率,参考:

1. 领域专用架构的必要性:
- 摩尔定律已失效:随着摩尔定律的放缓,传统的通用处理器(CPU)的性能增长已无法跟上数据和计算需求的增长。因此,需要转向领域专用架构来提高效率。
- 从通用架构到专用架构的转变:John Hennessy和David Patterson指出,计算架构需要发生重大变化,从通用架构转向为特定领域优化的专用架构,以更好地应对不同类型的计算任务。
2. CXL计算架构的聚焦点:
CXL(Compute Express Link)正在专注于数据领域专用架构,以优化不同领域的计算需求。
- AI领域(GPU/NPU):图形卡和神经网络处理器(NPU)专门针对AI计算进行优化。
- 基础设施/网络领域(DPU/IPU):数据处理单元(DPU)和基础设施处理单元(IPU)用于提升网络和基础设施相关任务的性能。
- 数据/内存领域(存储与内存):新的存储和内存计算架构将用于优化数据密集型的任务,提升内存带宽和效率。
3. 不同领域的计算需求:
不同计算领域的需求差异显著,因此领域专用硬件(如图形卡、网络接口卡和内存等)能够显著提升各自领域的性能,取代通用架构在效率上的不足。
John L. Hennessy 和 David A. Patterson 是计算机科学领域的两位著名学者,他们在计算机架构领域的贡献极为深远,尤其是关于精简指令集(RISC)和计算机体系结构方面的工作。他们共同编写的经典著作《Computer Architecture: A Quantitative Approach》是计算机体系结构的权威教材之一。下面是对他们的简介及其著作的介绍:
John L. Hennessy
David A. Patterson
《Computer Architecture: A Quantitative Approach》[2]

- 工作负载特点(Workload Characteristics):
数据领域的工作负载具有以下几个特点:
- 需要处理大规模数据集。
- 内存延迟和带宽是性能的主要限制因素。
- 任务具有高度并行化的潜力。
- 算术计算需求相对较低,但涉及多个条件分支操作。
这些特点表明,数据密集型计算的瓶颈通常是内存访问,而非计算能力本身。
- 应用场景:
典型的数据领域应用包括:
- 向量数据库(Vector Databases for Gen AI)
- 大规模数据库(Scale-out Databases)
- 图数据库(Graph Databases)
- DNA分析(DNA Analysis)
右侧的图展示了不同问题领域的分类(Problem Domain Classification),主要依据每次内存访问的操作强度(Operational Intensity)和操作多样性(Operational Diversity)来区分:
- 数据相关领域(Data-Related Domain):
这一类任务的运算密度较低,且大多数时间花在内存访问上,如基因组映射等。这类任务更多依赖高效的内存管理。
- AI相关领域(AI-Related Domain):
这一类任务需要大量的计算资源(如AI推理、深度学习等),并且每次内存访问涉及多样化的计算操作。这类任务适合高性能计算硬件,如图形处理器(GPU)。
- 通用领域(General Domain):
一些任务既涉及计算也需要良好的内存访问性能,这类任务分布较为广泛,适合使用通用处理器(如Intel Xeon)。
- 没有兴趣的领域(No Interest):
这一块表示当前讨论不涉及的领域,可能指的是那些既不要求高计算性能,也不强调内存性能的任务。
- 低运算强度/高内存访问任务:如数据相关领域。
- 高运算强度/高多样性任务:如AI相关领域。
- 中等运算强度和内存访问需求的通用任务:适用于多种应用的通用计算领域。
总结:
强调了在不同领域中,计算与内存之间的需求存在显著差异。数据密集型任务和AI任务的瓶颈分别在于内存带宽与计算能力,因此需要针对这些领域的专用硬件架构,以更好地优化性能。
Note:当前对GPU/计算加速卡的关注可能是短暂过热的,更别说取代通用计算,加速计算优化的是专用场景下计算效率,而绝大部分需求仍然是通用,随着AI工作流的在线方案逐渐成熟,相信通用计算又将迎来新的快车道。

CXL内存计算卡不仅仅是一个普通的内存扩展器,它提供了四层架构来优化数据中心的整体成本和性能:
Note:MetisX 内存计算卡与其他厂商CXL内存扩展之间有区别,首当其冲是采用RISC-V作为计算核,与常见FPGA的路线有差异;卡上集成DDR5内存和持久化SSD,则更像是Type2/3的综合方案,与Samsung的Memory-Semantic SSD产品非常接近。
其他厂商的CXL方案,参考:

AI数据管道(AI Data Pipeline)以及CXL内存计算如何加速基于数据驱动的AI流程。
最终,通过AI模型处理后的数据将生成价值。这些价值可以体现在:
CXL内存计算如何加速AI数据管道的各个阶段,特别是在处理大量数据的AI应用中,提升预处理和训练效率,支持向量数据库的查询,加速数据驱动的AI应用从数据到价值的生成过程。

内存计算的应用场景,涵盖了向量数据库、横向扩展数据库(Scale-out Databases)和图数据库的不同应用领域。
[1] 关于 MetisX: https://metaso.cn/s/PDqrhde
[2] 《Computer Architecture: A Quantitative Approach》: http://url.trylab.site/ComputerArchitecture