首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【存储100问】HPC 存储架构选型:IO500 榜单的思考

【存储100问】HPC 存储架构选型:IO500 榜单的思考

作者头像
数据存储前沿技术
发布2025-06-30 09:34:07
发布2025-06-30 09:34:07
3060
举报

全文概览

IO500基准测试已成为评估高性能计算(HPC)和人工智能(AI)领域存储系统性能的重要舞台,尽管其评价标准时而引发争议 1。从Lustre等老牌系统到DAOS等现代架构,顶级性能者的多样性揭示了一个关键事实:不存在单一的“最佳”存储架构。最优选择与工作负载的独特需求内在绑定。

本报告旨在对这一复杂格局提供深度洞察。首先,报告将解构HPC、大数据和AI这三个不同领域历史上分别倾向于并行文件系统、分布式块存储和对象存储这三种不同存储范式的根本原因。其次,报告将对在这一领域竞争的关键系统——Lustre(通过DDN EXAScaler)、DAOS、WekaIO、VAST Data和pNFS——进行严谨的架构比较,揭示驱动其性能并定义其权衡取舍的核心设计原则。

本分析基于对技术文档、行业报告和学术论文的全面审查,旨在综合出一个细致入微且全面的视角。

阅读收获

  • 理解HPC、大数据、AI各自独特的工作负载需求如何驱动不同的存储架构选择。
  • 认识到IO500等性能基准测试结果应结合存储系统架构深入分析,避免片面解读。
  • 了解当前存储技术正趋向融合,未来的数据基础设施将是统一多协议、跨介质的数据平台。
  • 掌握未来数据管理的关键在于编排端到端的数据管道,而非孤立优化存储系统。

图片
图片

高性能计算、大数据与AI存储范式架构分析

第一部分:存储范式的分化:基于工作负载的驱动力分析

本节旨在阐明不同存储选择背后的“为什么”,将应用特性与架构设计直接联系起来。存储范式的选择直接反映了一个领域的主要优化目标,而这个目标本身是特定时代主流硬件约束和应用模型的函数。

HPC优化的是计算的相互依赖性(CPU间延迟),大数据优化的是商用硬件上的网络瓶颈(数据本地性),而AI优化的是数据规模和敏捷性(计算与存储解耦)。这些不仅仅是不同的技术,而是对“我的工作流中最昂贵的操作是什么?”这一问题的不同哲学回答。

1.1 HPC范式:共享并行文件访问的至高地位

HPC工作负载通常被描述为“紧密耦合”的并行应用,例如科学模拟,其中成千上万的计算进程必须同时通信并访问共享数据集 2。这些工作负载执行大规模的流式I/O操作,如检查点/重启 4。在这种模式下,最昂贵的操作是等待其他进程完成数据交换。这就要求所有计算节点都拥有一个单一、一致、低延迟的文件系统视图,而这正是符合POSIX标准的并行文件系统所要解决的问题 5。共享文件系统本质上是共享问题空间在存储层面的延伸。

便携式操作系统接口(POSIX)是HPC应用的通用语言 5。它提供了一套标准化的、开发者熟悉的文件系统接口(如open、read、write、seek),确保了科学代码和库在不同类UNIX系统间的可移植性 5。这对于数十年来积累的庞大科学计算生态系统至关重要。消息传递接口(MPI)是HPC中主流的通信模型 7,而MPI-IO将其扩展到了存储领域,允许“集体I/O”操作,即多个进程协同地并行读写单个共享文件 6。这种模型与并行文件系统的架构完美契合。

因此,HPC领域对一个全局一致、所有进程在任何时刻都能看到相同文件系统状态的共享命名空间的需求是首要的。并行文件系统正是为此而生,使其成为传统HPC的天然且必然的选择 8。然而,严格的POSIX一致性也可能成为主要的性能瓶颈,这一权衡催生了许多具有宽松一致性语义的新系统 6。

1.2 大数据范式:数据本地性的经济学原理

大数据领域的工作负载主要由针对大型结构化或半结构化数据集的“一次写入、多次读取”(WORM)的批处理作业主导 12。MapReduce编程模型将大任务分解为可以并行处理的、独立的、更小的任务块 14。Hadoop生态系统的基石原则是“移动计算到数据端,而非移动数据到计算端” 14。Hadoop分布式文件系统(HDFS)将大文件切分成固定大小的块(例如128 MB),并将这些块分布在DataNode集群中 12。随后,MapReduce的调度器(YARN)会尝试在存储数据块的同一节点上运行处理任务 15。

这一架构的驱动力源于其时代背景。首先,HDFS设计用于在由廉价商用服务器构成的大型集群上运行,在这样的环境中,组件故障是常态。通过将每个数据块复制多次(通常为3次)并分布在不同节点和机架上,HDFS实现了高可靠性 12。其次,该设计的核心是优化流式读取大文件时的高聚合吞吐量,这对于批处理分析是理想的,其关注点是带宽而非IOPS 20。为此,它明确放宽了部分POSIX要求以实现更高的数据上传性能 12。

归根结底,HDFS是一个根本性的块存储系统,其设计旨在最小化特定计算模型(MapReduce)中的网络流量。它的架构是其时代经济和硬件约束的直接产物,以牺牲延迟和文件系统语义为代价,优化了吞吐量和弹性。

1.3 AI/ML范式:非结构化数据规模化的需求

人工智能(AI)和机器学习(ML)工作负载,特别是深度学习,对数据极度渴求,通常需要PB级的非结构化数据(如图像、视频、文本、传感器数据)进行训练 21。其访问模式通常是读取密集型的,并且可能涉及对数百万甚至数十亿个小文件的随机访问 20。在这种场景下,数据管理和大规模访问的便捷性成为最昂贵的操作。

对象存储为此提供了完美的解决方案。首先,传统的分层文件系统难以应对AI数据集中海量的对象数量。对象存储提供了一个扁平的命名空间,每个对象都有一个唯一的ID,使其能够扩展到万亿级对象而没有目录遍历的开销 23。其次,对象存储允许将丰富的、用户可定义的元数据附加到每个对象上。这对于AI工作流来说是无价的,它使得在存储层直接进行强大的搜索、过滤和数据管理成为可能 23。

最关键的是,对象存储通常通过RESTful HTTP API(如Amazon S3 API)进行访问。这种方式将计算集群(如GPU服务器)与存储系统解耦,允许它们独立地扩展、管理和升级。这与云计算的弹性、按需付费的本质完美契合 3。对象存储是构建“数据湖”的架构基础,数据湖是一个用于存储原生格式原始数据的中央存储库 21。该模型提供了驱动现代大规模AI和分析流程所需的灵活性、可扩展性和成本效益 21。

下面的表格总结了这三种存储范式之间的核心差异。

特征

HPC (并行文件系统)

大数据 (类HDFS系统)

AI/ML (对象存储)

主要工作负载

紧密耦合的科学模拟、建模

一次写入、多次读取的批处理分析

读取密集的模型训练、数据湖分析

主导数据类型

大型结构化文件、检查点

大型结构化、半结构化日志/记录

海量非结构化数据(图像、文本、视频)

核心原则

共享、一致的并行访问

数据本地性(移动计算到数据)

计算与存储解耦、可扩展性

关键访问模式

大规模顺序读写、并行I/O

流式读取、全表扫描

大量小文件的随机读取

主导API/接口

POSIX, MPI-IO

HDFS API, MapReduce

RESTful API (如S3), HTTP

性能衡量指标

带宽 (GB/s), 元数据操作速率

吞吐量 (Throughput)

IOPS, 延迟(Latency), 可扩展性

解决的架构瓶颈

CPU间通信延迟

商用硬件上的网络带宽

数据管理、存储与计算的独立扩展

第二部分:架构深度剖析:并行存储系统比较评估

并行文件系统的演进可以被视为一场围绕操作系统内核限制的“I/O路径之战”。Lustre代表了“内核集成”时代;由NVM驱动的DAOS代表了“内核旁路”革命;VAST的DASE代表了同样由新硬件赋能的“状态管理重构”模型;而pNFS则代表了一种更为保守的、面向企业的“标准扩展”演进。这不仅是硬件速度提升的故事,更是关于控制数据流的不同软件哲学的叙事。

2.1 现有王者:Lustre与DDN EXAScaler

Lustre是一个成熟的、开源的、基于内核的并行文件系统 24。其架构由分离的服务定义:

  • 元数据服务器 (MDS): 管理文件系统命名空间(目录、文件名、权限)和文件数据布局。它将这些信息存储在元数据目标 (MDT) 上 9。
  • 对象存储服务器 (OSS): 管理对实际数据块的I/O,这些数据块作为“对象”存储在一个或多个对象存储目标 (OST) 上 9。
  • 客户端: 运行一个Lustre内核模块来挂载和与文件系统交互 29。

Lustre架构的关键特性在于,一旦文件被打开,数据路径就绕过了MDS,从而防止MDS在处理大文件传输时成为瓶颈 25。以下是Lustre写操作的I/O路径流程图。

图片
图片

DDN EXAScaler并非一个独立的文件系统,而是DDN提供的商业支持、经过强化和功能增强的Lustre发行版 31。DDN通过以下方式增加了显著价值:

  • 集成一体机: 销售完全集成和优化的硬件/软件解决方案 31。
  • 企业级与AI特性: 增加了开源Lustre所不具备的功能,如高级快照、数据管理工具(STRATAGEM)、客户端缓存(Hot Nodes),以及与NVIDIA GPUDirect等GPU技术的深度集成 31。
  • 性能优化: 与NVIDIA等合作伙伴进行广泛的调优和协同设计,以最大化AI和HPC工作负载的性能 32。

2.2 革命者:Intel DAOS

DAOS(分布式异步对象存储)是对传统设计的根本性颠覆。它是一个开源的、软件定义的对象存储系统,从零开始为存储级内存(SCM/PMem)和NVMe而构建 37。

  • 用户空间与OS旁路: DAOS完全在用户空间运行,绕过操作系统内核进行I/O操作,以消除开销和延迟 37。
  • SCM与NVMe分层: 它智能地利用SCM处理延迟敏感的数据(元数据、小I/O、持久化索引),并使用NVMe提供容量和带宽密集型的大块数据存储 37。
  • 无中心化元数据服务器: 元数据分布在所有存储节点上,在对象存储内部进行管理,避免了单一元数据服务器的瓶颈 40。

DAOS的I/O路径极其轻量,利用RDMA(远程直接内存访问)实现应用与DAOS存储引擎之间的零拷贝数据传输。

图片
图片

版本控制是DAOS的核心,它支持细粒度快照和事务一致性等高级功能 37。DAOS提供原生的键值接口,而POSIX、HDF5等接口则作为“容器类型”在其上层实现 4。

2.3 NVMe原生阵营:WekaIO与VAST Data

  • WekaIO (WEKA):
    • 核心架构: WEKA是一个软件定义的、NVMe原生的并行文件系统,旨在避免传统瓶颈 42。它将数据和元数据完全分布在集群中的所有节点上,以防止热点产生 43(这与DAOS 类似)。
    • 关键特性: 支持向对象存储分层以扩展容量 44,提供比传统RAID更强大的数据保护(分布式纠删码)43,并提供包括POSIX、NFS和SMB在内的全套协议支持 43。
  • VAST Data:
    • 核心架构 - DASE: VAST的标志性技术是其“分离式共享一切”(Disaggregated Shared-Everything, DASE)架构 45。
      • 无状态服务器: “C-node”(计算节点)在容器中运行所有文件系统逻辑,但不持有任何持久状态。它们可以独立扩展或发生故障而无需数据重建。
      • 共享状态: 所有持久化数据和元数据都存放在一个由SCM和QLC闪存SSD组成的共享池中(称为“D-Box”),所有C-node通过NVMe-oF(NVMe over Fabrics)网络访问。
      • VAST声称,这种设计消除了服务器之间用于缓存一致性的“东西向”流量,而这在其他分布式系统中是一个主要瓶颈 45。
    • 关键特性: VAST开创了一种新颖的、基于相似性的数据缩减技术,超越了标准的重复数据删除和压缩 45。它提供了一个统一的平台,可在单一命名空间中支持文件、对象和表格(VAST DataBase, VAST DataSpace)46,并提供极具弹性的快照功能 45。

2.4 标准的旗手:并行NFS (pNFS)

pNFS并非一个全新的文件系统,而是对现有的、无处不在的NFS标准(从NFSv4.1开始)的一个扩展 48。其核心创新在于将元数据路径与数据路径分离 49。

  • 客户端联系一个中央NFS服务器(元数据服务器)进行文件操作,如open或lookup。
  • 服务器授予客户端一个“布局(layout)”,这本质上是一张地图,描述了文件数据的位置以及如何直接访问它 51。
  • 客户端随后可以直接并行地对存储设备执行I/O,绕过中央服务器进行数据传输 49。

pNFS标准非常灵活,定义了多种布局类型以适应不同的后端存储:

  • 文件布局 (Files Layout): 数据存储在其他NFSv3/v4服务器上。客户端使用标准的NFS操作进行直接I/O 51。
  • 对象布局 (Objects Layout): 数据存储在对象存储设备(OSD)上。客户端使用特定的基于对象的协议访问数据 51。
  • 块布局 (Block Layout): 数据作为块存储在SAN设备上。客户端使用iSCSI或光纤通道等块协议进行直接访问 49。
  • 灵活文件布局 (Flex Files Layout): 一种较新的布局类型,使用NFSv3作为存储协议,允许任何标准的NAS设备充当数据服务器。该布局由Hammerspace贡献,旨在增强灵活性 50。

pNFS的主要优势在于其基于标准的方法。它为企业带来了并行性能,而无需专有的、特殊的客户端软件或内核模块,充分利用了成熟且可信的NFS生态系统 48。

下表对这些并行存储系统的架构进行了比较。

特征

Lustre / EXAScaler

DAOS

WEKA

VAST Data

pNFS

核心设计哲学

内核集成、服务分离

用户空间、OS旁路、NVM原生

NVMe原生、全分布式

DASE架构、无状态计算、共享状态

标准扩展、元数据与数据分离

元数据架构

集中式MDS(可扩展)

分布式、集成于对象存储

全分布式

共享状态、存储于SCM

集中式NFS服务器

主要介质优化

HDD/SSD

SCM/NVMe

NVMe SSD

SCM/QLC NVMe SSD

后端存储无关

主要接口

POSIX

原生KV、POSIX、HDF5

POSIX、NFS、SMB、S3

NFS、SMB、S3、CSI、DataBase API

NFSv4.1+

数据保护模型

OST上的RAID、ZFS

分布式纠删码/复制

分布式纠删码

分布式、类RAID的纠删码

由后端存储提供

客户端组件

内核模块

用户空间库 (libdaos)

用户空间Agent/驱动

无状态客户端

标准NFS客户端 (内核)

关键架构差异

MDS/OSS分离,数据路径旁路MDS

端到端用户空间I/O路径

全分布式数据与元数据

DASE:无状态服务器与共享一切状态

基于NFS标准的布局(Layout)机制

第三部分:综合分析与未来趋势

本结论部分将报告的两个主要部分联系起来,并展望未来。

3.1 从架构视角重释IO500

通过第二部分获得的架构知识,可以重新解读IO500基准测试的结果 1。DAOS在该测试中的统治地位是其用户空间、为PMem优化的架构的直接体现,该架构在基准测试的元数据密集型和小I/O部分表现卓越 1。

来自WEKA和VAST的批评也揭示了基准测试的局限性 1。IO500是一个综合性基准测试,其结果可能无法完全模拟真实世界的工作负载,并且其对客户端数量的归一化方法可能导致结果偏差。VAST关于真实工作负载与为基准测试优化的“英雄跑分”之间的差异的观点,是对原始基准数字的重要反思。DDN结果上的“有限可复现性”标签也凸显了这些基准提交的高度调优特性 1。

因此,IO500与其说是衡量一个系统“更好”的标尺,不如说它反映了特定架构在特定、综合I/O模式下的优化程度。它是一个有价值的工程基准,但如果没有深厚的架构背景来解读,它可能成为一个具有误导性的营销工具。

3.2 大融合:边界的模糊化

架构和功能的融合趋势清晰可见。并行文件系统正在积极拥抱AI和对象存储。DDN EXAScaler大力推广其在AI领域的应用,增加了客户端缓存(Hot Nodes)和GPU集成等功能 31。VAST将自己定位为“深度学习数据平台”,提供原生的对象和表格支持 45。DAOS也为Spark和Arrow等AI及大数据框架提供了连接器 4。

与此同时,对象存储不再仅仅是“廉价深层”的归档方案,它正被设计用于高性能场景,以作为AI/ML工作负载的主存储层 23。

未来的数据基础设施不再是在这些范式之间做出选择,而是一个统一它们的平台。由VAST和Hammerspace等厂商倡导的全局数据平台或命名空间概念,能够跨文件、块和对象层,以及跨边缘、核心和云管理数据,这很可能是最终的发展方向 47。

3.3 结论:未来是数据管道,而非单一系统

随着数据工作流变得日益复杂(例如,采集 -> 准备 -> 训练 -> 推理 -> 归档),单一、庞大的存储系统的理念变得越来越不切实际。

未来的架构将是那些能够提供多协议访问、能在不同介质和位置之间智能分层和放置数据,并提供统一管理和访问层的系统。焦点将从优化单个系统转向编排整个数据管道。VAST、DAOS和基于pNFS的解决方案所展现的架构灵活性,正指向这个更加流畅和动态的未来。

===

参考文献

  1. DDN tops IO500 10-node list for HPC storage – Blocks and Files, accessed on June 28, 2025, https://blocksandfiles.com/2025/06/20/ddn-io500/
  2. What is an HPC Workload? | Glossary | HPE, accessed on June 28, 2025, https://www.hpe.com/us/en/what-is/hpc-workload.html
  3. What is high performance computing (HPC) | Google Cloud, accessed on June 28, 2025, https://cloud.google.com/discover/what-is-high-performance-computing
  4. DAOS: Revolutionizing High-Performance Storage with Intel® Optane™ Technology, accessed on June 28, 2025, https://www.intel.com/content/dam/www/public/us/en/documents/solution-briefs/high-performance-storage-brief.pdf
  5. What is a POSIX File System? - Quobyte, accessed on June 28, 2025, https://www.quobyte.com/storage-explained/posix-filesystem/
  6. File System Semantics Requirements of HPC Applications - NSF Public Access Repository, accessed on June 28, 2025, https://par.nsf.gov/servlets/purl/10328413
  7. A Comparative Survey of the HPC and Big Data Paradigms: Analysis and Experiments, accessed on June 28, 2025, https://bpb-us-e1.wpmucdn.com/you.stonybrook.edu/dist/6/1671/files/2017/02/asaadi2016comparative-15tb25x.pdf
  8. Supermicro Storage Solutions for High-Performance Computing, accessed on June 28, 2025, https://www.supermicro.com/white_paper/white_paper_Supermicro_HPC_Storage.pdf
  9. Lustre File System: High-Performance Storage Architecture and Scalable Cluster File System, accessed on June 28, 2025, https://dmice.ohsu.edu/bedricks/courses/cs506-problem-solving-with-large-clusters/articles/week1/lustrefilesystem.pdf
  10. Extending the POSIX I/O Interface: A Parallel File System Perspective - UNT Digital Library, accessed on June 28, 2025, https://digital.library.unt.edu/ark:/67531/metadc898115/m2/1/high_res_d/946036.pdf
  11. Extending the POSIX I/O Interface: A Parallel File System Perspective - Mathematics and Computer Science, accessed on June 28, 2025, https://www.mcs.anl.gov/papers/TM-302-FINAL.pdf
  12. HDFS Architecture Guide - Apache Hadoop, accessed on June 28, 2025, https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
  13. From HPC to AI: Evolution and Performance Evaluation of File Systems - JuiceFS Blog, accessed on June 28, 2025, https://juicefs.com/en/blog/user-stories/hpc-ai-file-system
  14. Distributed Data Processing with Hadoop: Scalability and Efficiency in Big Data - Medium, accessed on June 28, 2025, https://medium.com/@tommyadeliyi/distributed-data-processing-with-hadoop-scalability-and-efficiency-in-big-data-fdf8e74bf03d
  15. Data locality in Hadoop: The Most Comprehensive Guide - DataFlair, accessed on June 28, 2025, https://data-flair.training/blogs/data-locality-in-hadoop-mapreduce/
  16. Understanding the HDFS Architecture - A Detailed Guide - Hero Vired, accessed on June 28, 2025, https://herovired.com/learning-hub/blogs/hdfs-architecture/
  17. What is Hadoop Distributed File System (HDFS)? - IBM, accessed on June 28, 2025, https://www.ibm.com/think/topics/hdfs
  18. Hadoop Distributed File System (HDFS) - Alooba, accessed on June 28, 2025, https://www.alooba.com/skills/tools/data-storage-framework/hadoop-distributed-file-system/
  19. Data Locality in Hadoop - CuriouSTEM, accessed on June 28, 2025, https://www.curioustem.org/stem-articles/data-locality-in-hadoop
  20. Crucial Differences Between Enterprise, HPC and AI Storage - RAID Inc., accessed on June 28, 2025, https://www.raidinc.com/2019/06/crucial-differences-between-enterprise-hpc-and-ai-storage/
  21. S3 Object Storage: The Ultimate Solution For AI/ML Data Lakes - StoneFly, Inc., accessed on June 28, 2025, https://stonefly.com/blog/s3-object-storage-the-ultimate-solution-for-ai-ml-data-lakes/
  22. Unstructured Data Storage Considerations for AI Innovation - Digitalisation World, accessed on June 28, 2025, https://digitalisationworld.com/blog/58276/unstructured-data-storage-considerations-for-ai-innovation
  23. Why object storage is the future of AI/ML storage - UltiHash, accessed on June 28, 2025, https://www.ultihash.io/blog/why-object-storage-is-the-future-of-ai-ml-storage
  24. Introduction to Lustre Architecture, accessed on June 28, 2025, https://wiki.lustre.org/images/6/64/LustreArchitecture-v4.pdf
  25. Lustre (file system) - Wikipedia, accessed on June 28, 2025, https://en.wikipedia.org/wiki/Lustre_(file_system)
  26. Lustre filesystem - Docs CSC, accessed on June 28, 2025, https://docs.csc.fi/computing/lustre/
  27. Lustre Architecture | Office of Innovative Technologies - University of Tennessee, Knoxville, accessed on June 28, 2025, https://oit.utk.edu/hpsc/lustre-architecture/
  28. Components of a Lustre filesystem - Whamcloud Community Wiki, accessed on June 28, 2025, https://wiki.whamcloud.com/display/PUB/Components+of+a+Lustre+filesystem
  29. Mounting and Accessing a Lustre File System - Oracle Cloud Infrastructure Documentation, accessed on June 28, 2025, https://docs.public.content.oci.oraclecloud.com/en-us/iaas/Content/lustre/file-system-connect.htm
  30. Putting together a Lustre filesystem - Confluence Mobile - Whamcloud Community Wiki, accessed on June 28, 2025, https://wiki.whamcloud.com/display/PUB/Putting+together+a+Lustre+filesystem
  31. EXAScaler Product Family, accessed on June 28, 2025, https://www.aspsys.com/wp-content/uploads/2022/01/ddn-exa-data-sheet.pdf
  32. Unlock Your Data with EXAScaler® Lustre File System - DDN, accessed on June 28, 2025, https://www.ddn.com/products/lustre-file-system-exascaler/
  33. Entry-level Lustre from DDN - BTC Articles, accessed on June 28, 2025, https://storagemagazine.co.uk/articles/?article_id=5793&Mag=Storage
  34. DDN adds extra shine to Lustre-using EXAScaler array - Blocks and Files, accessed on June 28, 2025, https://blocksandfiles.com/2020/11/18/ddn-adds-extra-shine-to-lustre-using-exascaler-array/
  35. Accelerating AI Storage Networks with DDN and NVIDIA Spectrum-X, accessed on June 28, 2025, https://www.ddn.com/blog/accelerating-ai-storage-networks-with-ddn-and-nvidia-spectrum-x/
  36. Accelerating AI Networks with DDN's Data Intelligence Platform and NVIDIA Spectrum™-X for Storage - DDN, accessed on June 28, 2025, https://www.ddn.com/resources/whitepapers/accelerating-ai-networks-with-ddns-data-intelligence-platform-and-nvidia-spectrum-x-for-storage/
  37. Architecture - DAOS v2.0, accessed on June 28, 2025, https://docs.daos.io/v2.0/overview/architecture/
  38. DAOS - ALCF User Guides - Argonne National Laboratory, accessed on June 28, 2025, https://docs.alcf.anl.gov/aurora/data-management/daos/daos-overview/
  39. Intel Targets DAOS Object Storage At More Than HPC - The Next Platform, accessed on June 28, 2025, https://www.nextplatform.com/2022/02/14/intel-targets-daos-object-storage-at-more-than-hpc/
  40. DAOS Overview, accessed on June 28, 2025, https://daos.io/daos-overview
  41. Container Management - DAOS v2.0, accessed on June 28, 2025, https://docs.daos.io/v2.0/user/container/
  42. www.aspsys.com[1], accessed on June 28, 2025, https://www.aspsys.com/weka-io-parallel-file-system/#:~:text=WekaIO%20Matrix%20is%20an%20NVMe,bottlenecks%20of%20traditional%20NAS%20systems.
  43. Weka.IO Parallel File System - Aspen Systems Inc., accessed on June 28, 2025, https://www.aspsys.com/weka-io-parallel-file-system/
  44. Filesystems, object stores, and filesystem groups | W E K A, accessed on June 28, 2025, https://docs.weka.io/weka-system-overview/filesystems
  45. The VAST Data Platform, accessed on June 28, 2025, https://40268.fs1.hubspotusercontent-na1.net/hubfs/40268/Whitepapers/VAST-Data-Platform-Whitepaper.pdf
  46. Why VAST DataBase is Faster and Easier Than Iceberg for AI & Analytics, accessed on June 28, 2025, https://www.vastdata.com/resources/forms/white-papers/vast-database-performance-and-benchmarking
  47. The VAST Data Platform White Paper, accessed on June 28, 2025, https://www.vastdata.com/vast-data-platform-explained
  48. Parallel NFS - Hammerspace, accessed on June 28, 2025, https://hammerspace.com/parallel-nfs/
  49. Deploying pNFS file sharing with FreeBSD - Klara Systems, accessed on June 28, 2025, https://klarasystems.com/articles/deploying-pnfs-file-sharing-with-freebsd/
  50. pNFS Provides Performance and New Possibilities - HPCwire, accessed on June 28, 2025, https://www.hpcwire.com/2024/02/29/pnfs-provides-performance-and-new-possibilities/
  51. welch-pnfs-ops-00.txt - Parallel Data Lab, accessed on June 28, 2025, https://www.pdl.cmu.edu/pNFS/archive/welch-pnfs-ops.html
  52. Placement Layouts in NFS - SNIA.org, accessed on June 28, 2025, https://www.snia.org/sites/default/files/AdamEmerson-Watts_Placement_Layouts_NFS.pdf
  53. RFC 8434 - Requirements for Parallel NFS (pNFS) Layout Types - IETF Datatracker, accessed on June 28, 2025, https://datatracker.ietf.org/doc/html/rfc8434
  54. RFC 5664: Object-Based Parallel NFS (pNFS) Operations, accessed on June 28, 2025, https://www.rfc-editor.org/rfc/rfc5664.html
  55. RFC 8435: Parallel NFS (pNFS) Flexible File Layout, accessed on June 28, 2025, https://www.rfc-editor.org/rfc/rfc8435.html

延伸思考

  • 考虑到AI工作负载的快速演进(如生成式AI、实时推理),未来的存储架构需要在哪些方面进行调整,以超越当前的对象存储范式?
  • 文章提出未来存储将走向统一的数据平台。在构建和管理一个能够无缝处理文件、块、对象访问并跨越不同位置的统一平台时,主要的技术和运维挑战是什么?
  • 除了IO500等综合性基准测试,还有哪些方法或指标能更有效地评估存储系统在真实世界复杂HPC、大数据和AI工作负载下的性能和适用性?

Notice:Human's prompt,  Datasets by Gemini-2.5-Pro-DeepResearch

#智能数据平台演进 #存储架构选型

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 高性能计算、大数据与AI存储范式架构分析
    • 第一部分:存储范式的分化:基于工作负载的驱动力分析
      • 1.1 HPC范式:共享并行文件访问的至高地位
      • 1.2 大数据范式:数据本地性的经济学原理
      • 1.3 AI/ML范式:非结构化数据规模化的需求
    • 第二部分:架构深度剖析:并行存储系统比较评估
      • 2.1 现有王者:Lustre与DDN EXAScaler
      • 2.2 革命者:Intel DAOS
      • 2.3 NVMe原生阵营:WekaIO与VAST Data
      • 2.4 标准的旗手:并行NFS (pNFS)
    • 第三部分:综合分析与未来趋势
      • 3.1 从架构视角重释IO500
      • 3.2 大融合:边界的模糊化
      • 3.3 结论:未来是数据管道,而非单一系统
    • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档