前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Solidigm:云存储加速层(CSAL)如何通过FDP与PCIe Gen5技术释放QLC潜力?

Solidigm:云存储加速层(CSAL)如何通过FDP与PCIe Gen5技术释放QLC潜力?

作者头像
数据存储前沿技术
发布2025-02-11 19:59:05
发布2025-02-11 19:59:05
780
举报

全文概览

随着AI和大数据应用的爆发式增长,云存储系统面临性能与成本的双重挑战。传统QLC SSD虽具备高密度优势,却受限于写入放大效应(WAF)和耐用性问题。在此背景下,云存储加速层(CSAL) 应运而生——这一由Solidigm主导的开源技术,通过创新架构设计将超高速缓存(如Optane)、写入塑形层与QLC介质深度融合。

CSAL的独特价值在于:

  1. 利用FDP(灵活数据放置)技术实现动态/静态数据流智能分离,使QLC的WAF从1.8降至1.0
  2. 结合PCIe Gen5 SSD实现多FTL层扩展,平台利用率提升100%的同时降低25%总体成本
  3. 已在阿里巴巴ECS等场景验证,支持多租户环境下稳定提供透明块服务 这项技术突破不仅解决了QLC商用化瓶颈,更预示着未来存储架构向"计算型存储"演进的重要方向。

阅读收获

  1. 掌握QLC商用化关键技术通过CSAL+FDP组合拳,QLC SSD的WAF和耐用性指标达到企业级应用标准
  2. 理解存储架构演进趋势Gen5 SSD支持多FTL层扩展,为计算型存储提供硬件基础
  3. 获取成本优化新范式单实例PCIe插槽需求减少25%,单位存储成本降低30%

CSAL 概念及工作原理

图片介绍了云存储加速层(CSAL)的概念及其工作原理。

CSAL 是一个开源的云规模无共享闪存转换层,旨在提升性能、扩展QLC的价值,并为上层应用提供透明的块设备。它通过超高速缓存和写入塑形层来改善性能和耐用性,同时提供在多租户环境中的一致性能。图片还提到了Solidigm的几个SSD产品,如D7-P5810和D5-P5336。

其中 D7-P5810 作为CSAL 缓存层能提供更高性能的读写能力,而 D5-P5336 因其高密度、大容量成为持久化存储的选择。

Note

Azure:从“OceanStor”到AI未来:对象存储如何助力AI应用的演进一文中,微软对象存储高级专家认为,低成本、可扩展的对象存储技术将成为支撑AI/HPC应用的重要基础,而提高对象存储访问带宽和时延是急需优化的问题,否则将限制上层应用的演进。从这里来看:CSAL 将成为QLC 大容量SSD在AI场景落地应用的重要架构设计!

CSAL 发展历程

  • 在2022年,CSAL首次发布于SPDK 22.09版本,并且应用于阿里巴巴ECS D3C服务,用于计算密集型大数据本地磁盘实例。
  • 到了2023年,在FMS会议上,CSAL的新发展包括成为SPDK参考存储平台RSP中的一个FTL,以及基于QLC和SLC的高密度设计。
  • 而在2024年的EuroSys会议上,讨论了CSAL如何消除QLC采用的挑战,并提供了基于QLC的本地磁盘架构。

此外,在2024年的FMS会议上,CSAL又有新的进展,包括:

  • FDP NVMe技术实现与PCIe Gen5缓存SSD的扩展;
  • CSAL追加缓存;
  • 在CXL上运行L2P的CSAL演示。

图片讨论了数据放置在 CSAL 中的重要性。没有对异质流进行排序会导致写入放大因子(WAF)增加,而通过将数据分别放置,可以减少数据的移动并降低 WAF。CSAL 已通过在 ZNS 驱动器上验证了这种方法的有效性,并且当使用灵活数据放置(FDP)驱动器时,也可以实现相同的效果。图表和表格展示了使用标准 SSD 和 ZNS SSD 之间在 WAF 上的差异,并详细列出了不同写入模式下的配置。

Cite

更多关于 FDP 技术原理和场景应用的文章,可参考:


图片展示了在 CSAL 中如何实现灵活数据放置(FDP)。尽管 CSAL 使用带来组织存储数据,但每个带在打开时都需要分配一个放置句柄。在数据写入时,CSAL 可以通过轮询方式利用回收组来进行写入分级,从而优化存储过程。图中的回收单元和回收组显示了如何管理这些数据区域,确保系统高效运行。


展示了 CSAL + FDP 的评估设置。主要包括使用 QEMU 模拟一个 FDP 驱动的环境,前提条件是首先填充所有分区并执行顺序写入。接着,展示了一个异质流工作负载的示例,包含 8 个作业,其中 4 个是 64k 顺序写入,代表动态流,另 4 个是 64k 随机读取,代表静态流。该设置帮助模拟和评估不同流的行为和性能。


图比较了 CSAL 在常规驱动器和 FDP 驱动器上的写入放大因子(WAF)。在常规驱动器上,分离动态流和静态流的尝试失败,导致 WAF 达到 1.8。而在使用 FDP 驱动器时,动态流和静态流的分离成功,WAF 被显著降低至 1.0。图片清楚地展示了通过适当的流分离,CSAL 可以显著提高性能并减少写入放大效应。

图片介绍了关于 PCIe Gen5 缓存 SSD 性能的评估。

评估的关键假设是:Gen5 SSD 是否能够支持两个闪存转换层(FTL),而不会影响性能,相比于 Gen4。在测试中,使用了 Solidigm 和 Intel Optane 的 SSD,工作负载包括 16 个作业,进行均匀的随机写入测试。测试在一台搭载 Intel Xeon Gold 6426Y 处理器的服务器上进行,操作系统为 Fedora 39。

多个 闪存转换层(FTL)的应用价值

支持多个 FTL(闪存转换层)的主要原因是提高存储设备的灵活性、性能和利用率。具体的价值包括:

  1. 提高存储效率:
    • 支持多个 FTL 层可以实现不同类型的数据管理策略。例如,一个 FTL 可以专注于处理顺序写入,而另一个则专注于随机写入。这样可以针对不同的工作负载进行优化,从而提高存储设备的整体性能和效率。
  2. 增强平台利用率:
    • 在传统的单一 FTL 层设计中,所有的数据请求和管理都通过同一个层次进行,这可能会导致某些类型的数据访问瓶颈。通过引入多个 FTL 层,可以更好地分配负载,并使得平台资源得到更充分的利用,尤其是在支持多种工作负载的环境中。
  3. 优化写入放大(Write Amplification,WAF):
    • 多个 FTL 层可以使得数据的放置和整理更具灵活性,通过对不同数据流(如顺序写入和随机写入)进行不同处理,来减少写入放大效应。有效的 FTL 分配可以降低闪存的磨损,并延长 SSD 的使用寿命。
  4. 提高性能扩展性:
    • Gen5 SSD 提供更高的带宽和更大的处理能力,因此支持多个 FTL 层有助于最大化这一优势。相比于 Gen4,Gen5 SSD 可以处理更多的 FTL 层,这使得存储设备在性能需求较高的环境中能够更好地扩展。
  5. 应对多租户或异质流的需求:
    • 在云存储和大规模数据中心环境中,多个租户或应用程序可能同时运行并产生不同类型的 I/O 请求。多个 FTL 层能够更好地管理这些异质流,确保每个流的性能要求得到满足,而不会相互干扰。

图展示了使用 Gen5 驱动器时,扩展 FTL(闪存转换层)数量对性能的影响。通过对比 Gen4 和 Gen5,Gen5 驱动器支持更多的分区(16 个,而 Gen4 只有 8 个),尽管在带宽上略有下降(Gen4 为 100 MiB/s,Gen5 为 90 MiB/s),但 Gen5 提升了平台的利用率并保持了相似的性能。

Note

Gen4:写带宽性能更好,大概率可归因于试用Optane 作为缓存层,比Gen5 对照组的 TLC 性能更好。


图对比了 Gen4 和 Gen5 缓存驱动器的影响。尽管 Gen4 提供更好的性能和更少的故障风险,但其成本较高且需要更多的 PCIe 插槽。相比之下,Gen5 在性能上稍微降低,但其成本较低并且减少了对 PCIe 插槽的需求。不过,使用 Gen5 可能会导致缓存的写入放大(WAF)增加,因此可以通过采用 RAID1 或使用灵活数据放置(FDP)等方式来减轻这些问题。

Gen5 和 Gen4 缓存驱动器影响

项目

Gen4

Gen5

PCIe 插槽

4

3

作业性能 [MiB/s]

100

90

相对 SSD 成本²

100%

~75%

活动功率

2x21W(Optane)+ 2x24W(D5-P5336)

1x25W(D7-PS1010)+ 2x24W(D5-P5336)

空闲功率

4x5W

3x5W

Note

原材料中给出了成本测算的条目,可在文末跳转查看材料。

结论:

  • CSAL 在处理各种流/租户时展示了写入放大因子(WAF)的减少,特别是与 FDP 技术结合时。
  • CSAL 现已支持灵活数据放置(FDP)。
  • Gen5 SSD 可以与 CSAL 一起部署,从而减少总体拥有成本。

下一步:

  • CSAL 将进一步增强 FDP 技术的应用(例如,完全租户隔离)并与 PCIe Gen5 带宽进行扩展。
  • 使用基于 NAND 的 FDP SSD 进行评估。

延伸思考

本文到这就结束了,或许思考下面几个问题,能有更多收获!

  1. FDP技术能否应用于HBM缓存管理场景?如何平衡数据局部性与访问延迟?
  2. 在多租户云环境中,Gen5 SSD的FTL扩展是否存在安全隔离风险?
  3. 当QLC密度突破200层时,CSAL架构需要哪些适应性改进?

原文标题: Cloud Storage Acceleration Layer FDP NVMe Technology Implementation and Scaling with PCIe Gen5 Cache SSD

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • CSAL 概念及工作原理
  • CSAL 发展历程
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档