前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >基于 Chiplets 设计的高压缩比SRAM模块

基于 Chiplets 设计的高压缩比SRAM模块

作者头像
数据存储前沿技术
发布2025-02-11 19:27:55
发布2025-02-11 19:27:55
950
举报

文章略长,对于想了解UCIe 的朋友来说,可能不是直击痒处,通过具体的案例和落地方向来介绍SoC 多Die应用场景。

全文概览

文档由 Nilesh Shah (ZeroPoint Technologies) 发表,探讨了未来内存和存储技术的发展方向,特别是基于Chiplets的压缩LLC缓存与内存扩展技术。

  • 文章首先指出了当前AI架构中训练和推理对内存容量、延迟以及成本优化的需求,同时提到了现有解决方案的局限性。
  • 随后详细介绍了ZeroPoint Technologies开发的一种可提供2-4倍压缩比的新型SRAM技术,该技术具有高压缩性能、低延迟、小面积占用及低功耗等特点,并且易于集成到各种SoC中。
  • 此外,文中还提到了NuRAM作为一种基于MRAM的高密度、低功耗存储技术,其在数据保留、带宽和访问速度上相比于传统SRAM有着显著优势。
  • 文章进一步讨论了通过Chiplets技术结合NuRAM和压缩技术能够有效提高系统性能和能效,实现高达5-10倍于传统SRAM的有效容量。
  • 文中也提及了Nvidia Blackwell平台的应用实例,展示了如何利用嵌入式解压缩引擎以支持更高层次的数据处理需求。
  • 最后,强调了社区合作的重要性,特别是在确定重要用例、实施Chiplets和测试芯片、设定SoC性能和TCO目标等方面的合作,以推动Chiplets技术的进一步发展和应用。

SRAM 内存工艺进展

图表展示了随着制程节点的缩小(从14/16nm到5nm),三家芯片制造公司的SRAM单元尺寸的缩放趋势。主要观察点包括:

  1. SRAM单元尺寸逐步减小 从14/16nm的基准1.00标准化尺寸缩减到5nm,显示出缩放的挑战。
  2. 公司差异
    • 在10nm节点,TSMC和Samsung的SRAM尺寸相对接近,Intel的尺寸较小(更激进的缩放)。
    • 在7nm和5nm节点,Samsung和TSMC继续竞争,TSMC在5nm节点上实现了更小的SRAM尺寸(0.30)。
  3. 面临的挑战
    • 随着节点的缩小,SRAM尺寸减小变得更加困难,同时可能导致更大的泄漏电流和可靠性问题。

Quote

SRAM(Static Random Access Memory,静态随机存取存储器)由于其高速和低延迟的特点,广泛应用于需要快速存取的场景,包括以下几个方面

  1. CPU缓存(Cache)
    • SRAM 是现代处理器的一级缓存(L1)、二级缓存(L2)和三级缓存(L3)的核心技术。
    • 它速度快,但成本较高,因此主要用于小容量、高频访问的缓存存储。
  2. 嵌入式系统
    • 嵌入式处理器中的片上存储(On-chip memory)经常使用 SRAM,如微控制器(MCU)和数字信号处理器(DSP)中。
    • 这类场景需要高速低功耗的存储器,SRAM 是理想选择。
先进的 SRAM 容量等级

随着制程技术的不断进步,SRAM 的容量和集成度大幅提升,但其容量仍然远低于 DRAM 和 NAND 闪存,主要因为其结构复杂、成本高。以下是先进 SRAM 的容量等级

  1. CPU缓存中的容量
    • L1缓存 典型容量在 32KB ~ 128KB 范围(每核)。
    • L2缓存 典型容量在 256KB ~ 2MB 范围(每核)。
    • L3缓存 典型容量在 4MB ~ 64MB 范围(多核共享)。
  2. 嵌入式 SRAM
    • 在嵌入式芯片(如MCU、SoC)中,片上SRAM容量通常为 几KB到几MB
    • 高端嵌入式设备(如手机芯片)中可能达到 16MB ~ 64MB

AI 场景的内存挑战

  • AI内存需求的主要挑战
    • 带宽与容量限制 AI训练和推理都需要高带宽存储(如HBM),同时对内存延迟要求严格以减少响应时间。
    • 存储压缩/解压缩 压缩技术被用于提高数据传输效率。
  • 不同场景的存储优化
    • 训练 通常更依赖大容量的存储(如HBM)以及较复杂的架构。
    • 推理 需要更低的延迟和较高的计算效率,因此使用定制加速器如Groq和Tenstorrent。
  • 当前技术瓶颈
    • AI计算往往受到存储带宽的限制,这被称为“存储带宽墙”。
    • 需要在性能与成本之间进行权衡。
  • 未来趋势
    • 更高效的存储管理(如压缩技术)。
    • 专用架构优化(如高带宽存储的集成)。
    • 成本优化将成为主流方向。

Note

之所以更强调延迟而不是容量,是为后面要介绍SRAM内压缩技术做铺垫,小体积文件传输对带宽和时延都有帮助。


方案1:SRAM 数据压缩

2-4倍压缩(2-4X Compression)

  • 左侧为压缩前的SRAM(SRAM before)
    • 每个64字节缓存行中,包含有用数据(Useful Data)和冗余数据(Redundant Data)。
  • 中间蓝色方框
    • 64字节粒度压缩/紧凑(64 byte granularity compression/compaction)。
  • 右侧为压缩后的SRAM(SRAM after)
    • 数据经过压缩后,释放了大量空闲空间(Free Space),从而提升容量。
  • 压缩SRAM的优势
    • 通过对SRAM内容的压缩,可以显著减少冗余数据。
    • 每64字节缓存行中,通过粒度级压缩,可以释放多余存储空间。
  • 提升存储容量
    • 压缩技术可将SRAM的有效容量提升至原来的2-4倍。
    • 对于需要大容量和高效存储的场景(如AI训练或推理),这是一个关键优化手段。
  • 未来应用前景
    • 压缩SRAM将是解决带宽瓶颈和存储限制的重要方向。
    • 特别适用于需要低延迟和高容量的高性能计算场景。

Quote

节约空间、降低时延的同时,会带来什么副作用?

1. 额外的压缩/解压缩开销
  • 性能开销
    • 压缩和解压缩操作需要额外的计算资源和时间,可能会增加访问延迟,特别是在解压缩成为性能瓶颈时。
  • 硬件复杂度
    • 需要专门的压缩/解压缩电路,可能导致芯片面积增加以及功耗上升。
  • 适配问题
    • 不同类型的数据适合不同的压缩算法,压缩/解压缩逻辑需要灵活适配多种数据格式,否则可能降低效率。
2. 压缩效率不均
  • 数据压缩率不稳定
    • 某些数据(如高熵数据)可能无法被有效压缩,导致部分存储单元的空间利用率较低。
  • 存储碎片
    • 压缩后的数据可能出现无法高效利用的存储碎片,降低整体存储空间利用率。
3. 数据完整性风险
  • 错误敏感性增加
    • 在压缩后的数据中,单比特错误可能影响更大的数据范围,增加纠错的难度。
  • 纠错机制复杂化
    • 需要增强的纠错逻辑(ECC),进一步增加硬件复杂度和功耗。

SRAM 高效压缩:需求

  • 缓存压缩的核心目标
    • 通过高效压缩算法提升缓存容量,同时尽量不影响性能。
    • 需要在物理面积和功耗方面实现低成本。
  • 关键需求
    • 高压缩比 减少缓存中的冗余数据,扩大有效缓存容量。
    • 低延迟 压缩与解压缩的速度要尽量接近无压缩的访问速度。
    • 模块化设计 易于在现有的硬件和系统中集成。
  • 硬件实现的挑战
    • 在小面积和低功耗的约束下,硬件设计需要精简高效。
    • 系统需支持透明操作,避免对用户和软件生态的额外适配需求。
  • 实际应用场景
    • 适用于性能敏感的计算任务(如高性能计算和AI训练)。
    • 在功耗和面积限制较高的嵌入式设备中也具有应用潜力。

Quote

LLC 基本定义

LLC(Last-Level Cache)是计算机处理器架构中的最后一级缓存,通常是 L2缓存L3缓存(甚至更高,如L4)。它是靠近内存(DRAM)的一层缓存,旨在为多个核心共享存储数据,减少访问主存的延迟和频率。

LLC 的主要特点
  1. 共享缓存
    • LLC通常被多个CPU核心共享,而不是专属于单个核心。
    • 例如,L3缓存通常是多核处理器的共享缓存,而L1和L2缓存是每个核心的私有缓存。
  2. 大容量
    • LLC的容量通常比L1和L2缓存更大,范围从几MB到几十MB不等。
    • 由于缓存容量增大,它能存储更多的数据块,减少数据在缓存和内存之间的往返。
  3. 较长访问时间
    • LLC的访问时间(延迟)比L1和L2缓存略高,但远低于直接访问内存的延迟。
    • 这是一种性能与存储容量之间的权衡。
  4. 存储一致性(Coherency)
    • LLC与其他缓存(如L1和L2)之间需要保持缓存一致性协议(Cache Coherence Protocol),确保所有核心访问的缓存数据都是一致的。

解决方案

  • 目标
    • 提供一个独立的、通用的缓存压缩IP模块,可以轻松移植到各种SoC(系统级芯片)或Chiplet(小芯片)架构中。
  • 主要特性
    • 模块化设计 包含压缩/解压模块、标签管理模块以及数据和标签存储模块。
    • 灵活性 对制程和硬件平台无依赖,适合各种硬件集成。
    • 透明操作 对用户和上层软件透明,实现高度自动化的缓存压缩。
  • 优势与应用
    • 高性能压缩 通过硬件加速实现实时压缩/解压,减少内存占用,提高缓存效率。
    • 普及性 支持任何SoC和Chiplet架构,助力加速普及。
    • 面向未来的设计 可为高性能计算(HPC)、AI训练和推理、嵌入式设备等应用提供支持。
  • 挑战与潜力
    • 集成复杂性 需要有效优化与现有SoC架构的兼容性。
    • 应用范围广泛 可应用于从移动设备到高性能计算的多种场景。

ZeroPoint IP 方案

  • 核心优势
    • ZeroPoint IP(右图紫色)通过高效压缩算法实现 2-4倍压缩比,适用于多种应用场景和工作负载。
    • 提升系统性能达 15%-30%,同时保持低延迟,仅需5个周期完成压缩或解压操作。
  • 硬件效率
    • 在5nm工艺下仅需 0.1平方毫米 的面积,适合高密度集成。
    • 支持L2、L3和单层缓存,以线速度运行,确保系统性能不受影响。
  • 应用场景
    • 适用于从传统工作负载(SPEC2017)到现代化(Renaissance)和机器学习(MLPerf)的广泛场景。
    • 数据库应用(MonetDB+TPC-H)也可从高压缩比中受益。
  • 算法比较
    • 与LZ4相比,Z-ZID算法在大多数场景下表现更优,尤其是在小粒度(如64字节)压缩中效率更高。

Quote

关于 LZ4 算法

LZ4是一种无损压缩算法,因其高速度低延迟的特性而被广泛应用于各种存储与数据传输场景。它的设计目标是尽可能快地处理数据,而不会显著增加计算负担或延迟。

1. LZ4算法简介

LZ4基于LZ77压缩家族,是一种流行的无损数据压缩算法,以其简单、高效的实现和性能而闻名。LZ4的特点是:

  • 极高的压缩和解压速度 对现代硬件优化,可以实时处理数据。
  • 适中的压缩比 与gzip或zstd相比,压缩率略低,但解压速度远快于这些算法。
  • 低内存占用 LZ4非常轻量化,适合内存受限的嵌入式或实时应用场景。
2. 工作原理

LZ4采用了类似LZ77的滑动窗口机制,具体步骤如下:

  • 字符串匹配
    • 在输入数据中寻找重复的数据模式,并记录这些模式的位置和长度。
  • 标记与编码
    • 如果找到重复模式,就用一个标记(offset,length)替代重复的部分;
    • 如果没有找到重复模式,则直接将原始数据存储为字节流。
  • 压缩块
    • 数据被分块处理(通常是64KB的块),以便快速定位重复模式并优化压缩速度。

LZ4牺牲了一些压缩比,换来了更快的匹配和编码速度。

3. LZ4的压缩粒度

在讨论LZ4压缩时,粒度指的是压缩操作的数据块大小。例如:

  • 64字节粒度(64B granularity)
    • 每64字节为单位进行压缩。
    • 优势 适合小数据块场景,如缓存压缩,具有更高的随机性和灵活性。
    • 劣势 可能因为小块粒度导致压缩比不如大块粒度。
  • 4KB粒度(4KB granularity)
    • 每4KB为单位进行压缩。
    • 优势:对于连续性数据,压缩比更高,减少存储占用。
    • 劣势:处理小型或碎片化数据时可能浪费空间。

在**缓存压缩(Cache Compression)**场景中,64字节粒度更适合,因为缓存行通常是以64字节为基本单位,而大粒度(如4KB)可能导致延迟增加或存储碎片。

4. 性能与压缩比的权衡

LZ4的核心特点在于高速度,而不是追求极致的压缩比:

  • 压缩比 一般在1.5:1到2:1之间。
  • 压缩速度 每秒数百MB到数GB,远快于gzip和bzip2。
  • 解压速度 更快,常常是压缩速度的数倍。

对于需要极高压缩比的场景(如归档文件),可能不适用。但对于缓存、网络传输等对速度要求高的应用,是理想选择。

5. 与其他压缩算法的比较
  • 与gzip相比
    • LZ4的压缩速度更快,解压速度尤其快。
    • gzip提供更高的压缩比,但性能较低。
  • 与Zstandard (zstd) 相比
    • Zstandard支持更高的压缩比,但在默认配置下,LZ4的速度稍快。
  • 与Snappy相比
    • LZ4和Snappy在速度和压缩比方面相近,但LZ4在一些场景下表现略好。
6. 在缓存压缩中的作用

在缓存压缩中(如L2缓存、L3缓存或内存压缩),LZ4具有以下优势:

  • 快速解压 满足缓存压缩对低延迟的需求。
  • 高效压缩 在较小粒度下(如64字节),LZ4的压缩比足以显著减少缓存压力。
  • 轻量级实现 对硬件资源需求低,适合嵌入式硬件实现。

LZ4是一种轻量级、高性能的压缩算法,特别适合于对速度要求高的场景。在缓存压缩中,64B粒度和4KB粒度各有优势,具体选择取决于应用场景的需求 小粒度适合随机性强的缓存,而大粒度则在连续数据处理中表现更优。

Note

之所以这篇文章被放到FMS24-UCIe的大类里,大概率就是此处引入的IP,需要基于SoC互联技术以实现多Die封装。


方案二 SRAM 新介质-MRAM

  • NuMem NuRAM(基于MRAM单元的存储)
    • 一种使用MRAM(磁阻随机存取存储器)单元实现的存储技术。
  • 相较于SRAM的优点
    • 密度提升 在相同的布线数量下,MRAM的带宽是HBM的 2倍
    • 漏电功耗显著降低 断电情况下仍能保持数据(非易失性存储)。
    • 延迟改进 相较于DRAM,延迟改善 60x到650x
    • 带宽提升 漏电功耗比SRAM低 85x到2000x
    • 数据保存能力 密度是SRAM的 2.5倍,并随着工艺制程缩小而进一步提升。
  • 实际应用
    • 实现于 Meta Siracusa Extended Reality SoC(Meta Siracusa扩展现实芯片)。

Quote

NuMem NuRAM 发展现况

MRAM(磁阻随机存取存储器)作为新一代非易失性存储技术,近年来取得了显著进展。以下是MRAM及其代表性实现NuMem NuRAM的最新发展现状

MRAM的最新进展
  1. 商业化进程加速 多家领先的半导体公司已实现MRAM的量产。例如,三星电子于2022年推出了28nm 16Mb嵌入式MRAM,称其为全球最高能效的MRAM技术之一。Baijiahao[1]
  2. 技术演进 第二代自旋转移矩(STT-MRAM)技术已进入量产阶段,全球多家代工厂具备生产能力,专利布局日趋完善。此外,第三代自旋轨道矩(SOT-MRAM)技术的研发成为国际科技竞争的新焦点,旨在实现更高密度、更低功耗和更高算力密度的突破。IC Views[2]
  3. 应用领域扩展 MRAM在消费电子、汽车、数据中心等领域的应用不断增加。例如,华为的智能手表等消费级产品率先采用磁存储技术,显著提升了待机时间与性能。IC Views[3]
NuMem NuRAM的最新进展
  1. 技术优势 NuMem的NuRAM基于MRAM技术,提供了SRAM和eFlash的优秀替代方案。与传统SRAM相比,NuRAM面积缩小2-3倍,漏电功耗降低超过20倍。Numem[4]
  2. 融资与发展 Numem公司于2023年完成了由Cambium Capital领投的A轮融资,旨在加速其AI和物联网领域的内存解决方案的开发和市场推广。Newswire[5]
  3. 合作与应用 2024年,Numem与IC'Alps合作开发了一款用于传感器和AI应用的超低功耗SoC,集成了RISC-V处理器、2MB的NuRAM和DSP/AI定制数据路径加速器。Icalps[6]
未来展望

MRAM技术正处于快速发展阶段,预计未来十年将持续增长。第一代产品将在工业领域和航空航天中继续应用;第二代产品将在物联网终端、车载系统和数据中心中得到广泛采用;第三代技术的发展将为我国实现自主创新提供重要机遇。IC Views[7]

总体而言,MRAM及其实现形式NuMem NuRAM在存储器领域展现出巨大的潜力,随着技术的不断进步和应用的拓展,未来有望在更多领域中发挥关键作用。


方案3:压缩+NuMem

  • Chiplet Synergy(芯粒协同作用)
    • 压缩 实现 2-4倍的有效存储容量。
    • NuRAM 存储密度是SRAM的 2.5倍
    • 在低密度情况下,每个芯片可达到 1-3GB 的存储容量。
    • 压缩 + NuRAM 结合压缩与NuRAM,可实现 5-10倍 的有效存储容量,相较于SRAM。
  • Chiplet(芯粒架构)
    • 基于 NuMem SmartMem SoC 解决方案。
    • 在更大的有效存储容量下,分摊芯粒的成本(Amortize Chiplet cost over larger effective capacity)。

片上系统(SoC)的Chiplets 选项

图示展示了一个SoC芯片系统基于多芯粒设计的架构,其中包含以下主要模块

  1. SmartMem/NuRAM(多堆叠结构)
    • 使用NuRAM技术扩展存储能力。
  2. UCIe接口
    • 提供了高带宽的通用芯粒互联。
  3. HBM堆叠
    • 高带宽存储堆叠,可与NuRAM结合。
  4. CPU/AI芯片
    • 中心计算单元,连接多种存储和接口。
  5. 混合堆叠
    • NuRAM与DRAM结合,提供更大的存储灵活性。
  6. 封装基板(Package Substrate)
    • 使用Interposer或EMIB技术实现不同模块的连接。
  • 芯粒架构的核心特点
    • 通过芯粒(Chiplet)设计实现模块化存储架构,提供了高度灵活和可扩展的SoC解决方案。
    • 支持多种堆叠选项(如UCIe、HBM和NuRAM),能够根据性能和存储需求自由配置。
  • 关键技术优势
    • 高带宽 通过UCIe和HBM接口,显著提升数据传输速率。
    • 混合堆叠 结合NuRAM和DRAM的优势,兼顾高密度和高性能存储。
    • 模块化设计 不同芯粒之间的分离设计降低了生产复杂度,提高了整体效率。
  • 应用场景
    • 高性能计算(HPC) 满足大规模数据存储和快速计算的需求。
    • 人工智能(AI)推理与训练 通过低延迟和高带宽支持复杂AI模型。
    • 扩展现实(XR)设备 为需要高效存储与低功耗的场景提供解决方案。

HBM 的压缩 IP

  • HBM压缩的重要性
    • HBM(高带宽存储)是一种高速、低延迟的存储技术,广泛用于高性能计算(HPC)和AI任务。
    • 压缩和解压缩技术通过减少传输数据量,进一步提高了HBM的实际有效带宽,降低了系统能耗。
  • Nvidia Blackwell的技术创新
    • Blackwell平台将解压缩引擎集成到芯片中,支持高达 800GB/s 的处理速度,能够快速解压缩存储在HBM中的数据。
    • 这种集成方式减少了CPU/GPU在数据处理上的负担,显著提高了整体性能。
  • 压缩引擎的优势
    • 高效带宽利用 在相同硬件规格下,通过压缩技术提升数据传输效率。
    • 适配HBM芯粒架构 HBM芯粒设计可以利用压缩引擎实现更高的存储容量和更快的访问速度。
    • AI和HPC优化 特别适用于需要大规模数据访问的任务,如AI模型训练和科学计算。

片上多Die 的数据一致性

随着SoC 设计向Chiplets 转型,每个Die负责专用功能,都会集成一定的数据缓存容量,在实际业务中如何保证不同Die之间的数据一致性,是 Chiplets 落地的关键。

  • 一致性网格架构的核心特性
    • 通过分布式缓存和嗅探过滤器,保证多个处理节点之间的数据一致性。
    • 芯片间通过网关实现数据传输和扩展,支持模块化的芯粒设计。
  • 技术优势
    • 可扩展性 通过网关和分布式架构,系统能够适应不同规模和性能需求。
    • 高性能存储支持 通过DDR5和HBM3存储控制器实现高带宽和低延迟的存储访问。
    • 多设备集成 支持处理器、存储器、加速器以及外围设备(如PCIe5)的无缝集成。

ARM CMN-Cyprus的作用

  • ARM的CMN-Cyprus架构是这种网格系统的典型实现,支持扩展性和一致性,是高性能系统设计的核心技术之一。

Summary(总结)

  1. 可移植缓存压缩解决方案
    • 提供 ZeroPoint IP解决方案 产品简报。
  2. NuRAM SmartMem
    • 高带宽、低延迟内存SoC,详情参见 www.numem.com[8]。
  3. NuRAM SmartMem + ZeroPoint压缩
    • 实现5-10倍的面积减少或密度提升。
  4. 一致性网格网络
    • ARM提供的 Coherent Mesh Network

Call to Action - Community Collaboration (行动号召 - 社区协作)

  1. 最重要的应用场景是什么?
  2. 芯粒/测试芯片的实现协作?
  3. 针对每种应用场景的SoC性能和总拥有成本(TCO)目标?
  4. 芯粒:如何通过一致性网格扩展超越点对点连接?
  5. https://baijiahao.baidu.com/s?id=1794203684490467185&utm_source=chatgpt.com ↩
  6. https://www.icviews.cn/news/11203/7?utm_source=chatgpt.com ↩
  7. https://www.icviews.cn/news/11203/7?utm_source=chatgpt.com ↩
  8. https://www.numem.com/nuram/?utm_source=chatgpt.com ↩
  9. https://www.newswire.com/view/content/numem-announces-series-a-funding-led-by-cambium-capital-to-propel-22122289?utm_source=chatgpt.com ↩
  10. https://www.icalps.com/numem-icalps-collaborate-to-develop-an-ultra-low-power-soc-for-sensor-and-ai-applications/?utm_source=chatgpt.com ↩
  11. https://www.icviews.cn/news/11203/7?utm_source=chatgpt.com ↩
  12. http://www.numem.com ↩
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 全文概览
    • SRAM 内存工艺进展
    • AI 场景的内存挑战
    • 方案1:SRAM 数据压缩
    • SRAM 高效压缩:需求
    • 解决方案
    • ZeroPoint IP 方案
    • 方案二 SRAM 新介质-MRAM
    • 方案3:压缩+NuMem
    • 片上系统(SoC)的Chiplets 选项
    • HBM 的压缩 IP
    • 片上多Die 的数据一致性
    • Summary(总结)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档