首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Haein集群为例,VAST AI OS:存储为核心的AI实践

Haein集群为例,VAST AI OS:存储为核心的AI实践

作者头像
数据存储前沿技术
发布2025-10-09 10:49:16
发布2025-10-09 10:49:16
1320
举报

全文概览

生成式AI的浪潮正以前所未有的速度重塑着技术格局,但您是否曾思考过,在这场计算革命的背后,数据基础设施正面临怎样的极限挑战?传统的存储架构,是否已成为束缚GPU集群性能、阻碍AI创新的隐形瓶颈?

本文将深入剖析VAST Data AI操作系统如何以其独特的“解耦、共享一切”(DASE)架构,为全球主权AI基础设施提供核心支撑。我们将以韩国SK Telecom的Haein集群为例,揭示这一创新平台如何将GPU环境的配置时间从数周缩短至惊人的10分钟以内,并实现接近裸机的极致性能。这不仅仅是一次技术升级,更是一场运营效率的革命,它重新定义了AI时代数据平台的角色——从简单的支持组件,跃升为决定AI工厂性能、敏捷性和经济效益的核心驱动力。

阅读收获

  • 理解DASE架构如何通过计算与存储解耦,彻底解决AI工作负载中的I/O瓶颈,提升GPU利用率。
  • 掌握VAST Data平台在主权AI云中实现分钟级GPU环境配置和接近裸机性能的关键技术,加速AI项目迭代。
  • 认识到单一全闪存层如何通过QLC闪存和数据缩减技术,简化传统多层存储架构,显著降低AI基础设施TCO。
  • 学习VAST平台如何通过原生多租户隔离、精细化QoS和端到端加密,构建安全、合规且高效的共享AI计算环境。

01

摘要

文章对VAST Data的人工智能(AI)操作系统在主权和大型研究GPU基础设施中的关键作用进行了深入的技术分析,并以韩国电信(SK Telecom)部署的Haein主权AI集群作为核心案例研究。随着生成式AI的兴起,数据基础设施面临着前所未有的压力,传统的存储架构已成为制约大规模GPU集群效率的主要瓶颈。文章旨在阐明,现代化的数据平台不仅是AI基础设施的支持组件,更是其性能、敏捷性和经济效益的核心决定因素。

分析表明,韩国Haein Cluster的成功部署,验证了一种新的AI基础设施范式。该集群通过集成VAST AI操作系统,将GPU环境的配置时间从数天乃至数周锐减至10分钟以内,同时实现了接近裸机的性能,这一成就从根本上改变了大规模AI研究的运作模式。这不仅是一次技术升级,更是一场运营效率的革命,为国家级AI战略的快速迭代和创新提供了关键的敏捷性。

文章的核心结论是,VAST Data的“解耦、共享一切”(Disaggregated, Shared-Everything, DASE)架构,是其能够应对现代AI工作负载挑战的根本原因。DASE架构通过将计算(C-Node)与存储(D-Node)彻底解耦,并利用高速NVMe-oF网络实现全局数据访问,从根本上解决了传统存储系统在I/O性能、可扩展性、多租户安全性和管理复杂性方面的固有矛盾。因此,VAST平台不仅是一个存储解决方案,更是一个专为AI时代设计的、能够释放GPU全部潜力的 foundational AI Operating System,使其成为全球主权云和顶尖研究机构构建下一代AI工厂的关键技术选择。


02

现代AI基础设施:规模与主权挑战

生成式AI的崛起正在引发一场计算范式的深刻变革,将数据基础设施推向了极限。这种转变不仅仅是关于计算能力的竞赛,更凸显了数据存储和管理这一长期被低估的领域的核心作用。本节旨在剖析这一背景下的技术与战略挑战,正是这些挑战催生了对全新数据架构的迫切需求。

01

数据洪流与GPU“饥饿”问题

AI工作负载,尤其是深度学习模型,本质上是“数据饥渴”的,其训练过程需要消耗PB级的数据,而推理阶段则要求对数据进行快速访问 1。据预测,全球数据圈将在2025年增长至175 ZB,其中大部分增长由AI驱动 1。这带来了首要的技术挑战:如何以足够快的速度将数据“喂”给大规模并行化的GPU集群,以防止这些昂贵的计算资源陷入闲置状态。任何一个GPU的停滞都意味着数百万美元投资的巨大浪费 3。

AI工作流复杂的I/O模式进一步加剧了这一问题,其包含了大规模顺序读取(摄取训练数据集)、大量小文件随机读写(访问元数据、特征存储)以及大规模顺序写入(模型检查点)等多种混合模式 5。传统的存储系统往往只针对其中一种模式进行优化,这导致在AI数据管道的其他环节出现性能瓶颈 1。因此,现代AI基础设施面临的核心矛盾已经从计算能力的不足,转变为数据I/O能力的不足。GPU算力的指数级增长(例如NVIDIA Blackwell架构的出现 7)使得数据平台的服务能力成为决定整个AI集群效率和投资回报率的真正瓶颈。存储性能不再是次要考虑因素,而是决定AI工厂经济可行性的关键经济变量。

02

传统存储层级架构的低效性

传统的高性能计算(HPC)和AI基础设施普遍依赖于一个复杂的多层级存储架构:一个用于归档的低成本、高容量层(如基于HDD的对象存储),一个用于“暂存空间”的、以性能为导向的并行文件系统(如Lustre、GPFS),以及计算节点上的本地NVMe存储 8。

这种架构的固有缺陷在于,它要求在不同层级之间进行持续、耗时且繁琐的数据复制。例如,在模型训练开始之前,必须先将数据从数据湖复制到高性能的暂存文件系统中。这种数据移动不仅是运营上的巨大摩擦点,也严重拖慢了AI研究的迭代速度,成为创新的主要障碍 8。

03

主权AI的战略必要性

当前,围绕关键技术的全球竞争日趋激烈,促使各国将技术自主和降低地缘政治风险置于优先地位 10。这催生了“主权AI”或“主权云”的概念,即一个国家在其境内构建并控制从数据中心、计算硬件到基础模型和应用的全套AI技术栈 11。这确保了国家数据的隐私、安全以及对这一关键经济和战略资产的完全控制。

韩国的“AI计算资源利用增强计划” 11、印度的“IndiaAI Mission” 14 以及阿联酋的Core42主权云项目 15 都是这一全球趋势的明证。然而,构建此类基础设施资本投入巨大,且面临能源供应、专业技术人才匮乏等严峻挑战,尤其对于发展中国家而言更是如此 16。这就对底层技术方案提出了更高的要求:它们不仅要性能强大,还必须兼具高效率和易于运营的特性。主权AI的兴起,不仅仅是关于数据本地化的要求,它更是一个强大的催化剂,迫使各国摒弃传统、孤立的基础设施,转向现代化、统一且敏捷的平台。一个主权云若要有效地服务于国内多元化的用户(政府、科研、企业),就无法承受传统系统的运营僵化和复杂性。它需要一个原生支持多租户、安全且易于配置的平台,这从战略层面推动了一场架构的革新。


03

案例研究:Haein主权AI集群

SK Telecom的Haein集群为成功的主权AI云提供了具体的、可供参考的实现范例。本节将深入剖析其技术栈,并重点分析其可量化的运营成果,这些成果标志着其与传统基础设施部署模式的根本性决裂。

01

架构蓝图:一个协同的AI技术栈

Haein集群是韩国一项国家级AI基础设施项目,被韩国科学技术信息通信部选定为“AI计算资源利用增强(GPU租赁支持)计划”的核心组成部分 11。

  • 计算层:集群构建于最新的NVIDIA Blackwell GPU架构之上,这些GPU部署在由超微(Supermicro)制造的NVIDIA HGX服务器平台中 11。这为训练和推理国家级大型基础模型提供了强大的原始计算能力。
  • 存储与数据管理层:VAST Data AI操作系统是整个数据地基的核心 11。它被深度集成到SKT的“Petasus AI Cloud”云平台中 12。
  • 项目目标:在韩国境内创建一个完全虚拟化、安全、高吞吐、多租户的GPU即服务(GPUaaS)环境,以满足政府、科研机构和企业级AI客户的需求 11。

02

运营敏捷性:10分钟配置革命

传统基于裸机系统的AI基础设施面临的一个核心挑战是新工作负载的配置时间,这一过程通常需要数天甚至数周 11,是开发者和研究人员面临的主要瓶颈。

通过将VAST AI操作系统集成到其Petasus AI Cloud中,SKT成功将“启动GPU环境”的时间缩短至10分钟以内 11。这不仅仅是一项优化,而是从静态、预规划的基础设施模式到动态、按需分配的云服务模式的根本性转变。它为满足各类国家级AI项目不断变化的需求提供了必要的弹性 13。这一变革重新定义了大规模AI基础设施的“性能”标准。虽然原始吞吐量(GB/s)和IOPS仍然重要,但对于商业和科研而言,更关键的指标是“洞察时间”(time-to-insight)。将一个完整、隔离的高性能GPU环境的配置时间从数周缩短到几分钟,对提升研究速度和开发者生产力的影响,远超任何合成基准测试分数的边际提升。这种运营敏捷性是支持高性能虚拟化的架构所带来的直接成果。

03

性能验证:“接近裸机”的承诺

虚拟化通常会带来性能开销,这对I/O密集型的AI工作负载可能是致命的。SKT宣称,其基于VAST构建的虚拟化环境保留了接近裸机的性能 11。

这一说法得到了其他大规模VAST部署的实际性能数据的支持。例如,对同样使用VAST的CoreWeave云平台进行的基准测试研究显示,单台服务器的峰值吞吐量可达约11 GiB/s,达到了给定网络接口(100GbE)理论最大值12.5 GiB/s的88% 6。更重要的是,CoreWeave的研究展示了持续100%的GPU核心利用率,仅在数据加载和模型检查点操作期间有微小下降,这明确证明了存储系统没有成为瓶颈,GPU正在以最高效率运行 6。这些实际的数据为“接近裸机”的说法提供了有力佐证,表明该架构设计能够最大限度地减少虚拟化带来的性能损耗。

历史上,系统设计一直面临着虚拟化的灵活性与裸机的原始性能之间的权衡。Haein集群的实践证明,现代数据平台有能力打破这一权衡。这种“无损虚拟化”并非营销口号,而是一项关键的技术成就。它使得面向公众的多租户GPUaaS服务在技术上和经济上都成为可能,因为它既能提供虚拟化带来的运营优势(多租户、快速部署、资源池化),又不会牺牲昂贵GPU所必需的极致性能。这正是解锁整个GPUaaS和主权云服务模式的关键所在。


04

VAST核心架构:DASE深度解析

本节将对VAST的“解耦、共享一切”(DASE)架构进行严谨的技术解构,阐释这种“全新设计”(clean slate)20 与传统架构的根本区别,以及为何这些区别对于解决第一部分中概述的挑战至关重要。

01

DASE原则:计算与存储的解耦

DASE架构的核心创新在于将系统的逻辑(计算)与其物理存储介质彻底解耦 21。该架构由两个可以独立扩展的不同组件构成 22:

  • C-Node(计算节点):无状态服务器,通常以容器形式运行,负责处理所有协议服务(NFS、S3、SMB)、数据处理和系统逻辑。它们自身不存储任何持久化状态 23。
  • D-Node(数据节点):容纳在称为DBox的高密度NVMe机箱中,这些节点包含物理存储介质(QLC闪存SSD和存储级内存/SCM),并管理底层的数据布局和弹性 8。

这种解耦设计允许资源的独立扩展。如果需要更高的性能,组织可以增加C-Node的数量;如果需要更大的容量,则可以增加D-Node及其DBox。这打破了传统横向扩展NAS系统中计算和存储必须按固定比例一同扩展的僵化模式 21。

02

NVMe-oF网络:高速数据主干

C-Node和D-Node通过高速、低延迟的NVMe over Fabrics(NVMe-oF)网络(如InfiniBand或RoCE)互连 22。这个高速网络结构使得任何一个C-Node都能直接、并行地访问任何D-Node中任何SSD上的数据,仿佛这些存储是本地直连的一样 8。这是“共享一切”模型的技术基础。

03

“共享一切”

在传统的“无共享”(shared-nothing)架构中,每个节点拥有其自己的数据。当需要访问不属于自己的数据时,节点之间必须进行通信。这种节点间的通信在系统规模扩大时,很容易造成瓶颈、热点和一致性挑战 25。

而在VAST的DASE模型中,所有的系统状态和元数据都存储在D-Node的共享SCM/NVMe介质上,并通过高速网络对所有C-Node可见。这消除了C-Node之间为I/O操作而进行通信的必要性 8。其结果是一个“易于并行化”(embarrassingly parallel)的系统架构,能够扩展至数千客户端和EB级容量,而没有管理服务器间状态的开销和复杂性,从而避免了“吵闹的邻居”问题 22。这种设计理念是对统治了分布式系统数十年的“无共享”范式的一次直接革新。DASE架构的出现,是基于对现代网络技术演进的深刻洞察:当共享资源(数据平面)的访问速度足够快时,让所有计算单元直接访问它,比让它们之间为了维护状态而不断通信更为高效。

04

数据流与介质优化

VAST采用了一种日志结构文件系统的方法,即写入操作从不在原地进行。所有新的数据和元数据首先被写入由高耐久性存储级内存(SCM)(之前是Optane,现在是SLC高性能SSD)构成的持久化写缓存中 21。

这种方法使得VAST能够将大量小的、随机的写入操作聚合成大的、顺序的条带,然后再将它们写入成本更低、耐久性较低的QLC闪存介质。这极大地提升了重度随机写入工作负载的性能,并显著延长了QLC SSD的使用寿命 21。读取请求可以从SCM(用于热数据/元数据)或QLC闪存中得到服务,从而在单一物理系统内实现了一种分层性能模型 27。

表3.1 存储系统架构对比

下表清晰地对比了DASE与传统存储系统在关键架构特性上的根本差异。

特性

VAST Data (DASE)

传统横向扩展NAS

并行文件系统 (Lustre/GPFS)

核心架构

解耦、共享一切 (Disaggregated, Shared-Everything) 12

无共享 (Shared-Nothing) 26

分布式、共享磁盘 (Distributed, Shared-Disk)

扩展模型

计算与容量独立、线性扩展 21

节点(计算+存储)耦合扩展

元数据服务器(MDS)、对象存储服务器(OSS)和客户端的复杂扩展 28

元数据处理

分布式,存储于SCM,全局可访问 8

分布式,但状态需在节点间共享

集中式 (Lustre) 或 分布式 (GPFS) 5

节点间通信

I/O路径上极少或无 21

频繁(用于锁、缓存一致性) 26

频繁(用于锁和元数据)

主要协议

基于NVMe-oF网络的标准NFS/S3/SMB 22

标准NFS/SMB

专用客户端,遵循POSIX 5

工作负载优化

混合I/O(大小文件、随机/顺序) 29

通用型,常在元数据处理上遇到困难

大型、顺序I/O 5

运营简易性

为IT通用人员设计;GUI驱动 8

通常较简单

需要专业领域知识 5

C-Node的无状态特性是一项意义深远的设计。这意味着C-Node的故障几乎不成问题;其工作负载(由虚拟IP地址代表)可以即时、无中断地故障转移到池中的其他C-Node 23。这不仅提供了极高的弹性(VAST宣称可用性达99.9999% 21),更重要的是,它实现了真正的弹性伸缩。C-Node可以根据性能需求随时增减,而无需进行任何数据迁移,这在紧耦合架构中是无法实现的。这一架构特性正是系统高可用性和弹性性能伸缩能力的根源。


05

VAST Data:解决GPU工作负载痛点

本节将连接DASE的架构理论与AI基础设施的实际问题,详细阐述VAST的特定设计如何为从数据准备到模型推理的整个AI数据管道提供切实的解决方案。

01

单一全闪存

VAST的“通用存储”(Universal Storage)概念旨在消除AI领域常见的那种复杂低效的存储层级 8。这通过两项关键技术的结合得以实现:

  • 超大规模QLC闪存:系统设计采用低成本、高密度的QLC闪存作为其大部分容量的载体,这使得在PB级乃至EB级规模上部署全闪存架构在经济上成为可能 32。
  • 革命性的数据缩减:VAST采用了新颖的、全局的、基于相似性的数据缩减算法,该算法可在整个命名空间内发挥作用。这超越了简单的压缩和去重,能以对AI数据集(通常包含高度相似的数据)特别有效的方式发现并消除冗余。客户平均实现了近3:1的数据缩减率 33。

这些特性带来的经济优势使得VAST能够取代海量的磁盘和混合存储 32。最终形成一个能够同时充当归档库、数据湖和高性能暂存空间的单一平台,从而消除了数据移动,简化了AI工作流 8。这种数据缩减技术不仅是容量优化的手段,更是一种性能倍增器。如果数据缩减率为3:1,意味着从闪存中每读取1GB的逻辑数据,实际上只需要传输约333MB的物理数据。这有效地将底层闪存介质的读取带宽放大了三倍,并减少了磨损,将数据缩减从一个单纯的TCO特性,转变为系统性能架构的核心组成部分。

02

驾驭混合I/O:AI性能英雄

如前所述,AI工作负载会产生混乱的混合I/O模式 6。传统的并行文件系统(如Lustre)擅长处理大型顺序I/O,但通常在处理元数据密集型或小型随机I/O操作时表现不佳 5。

VAST的架构正是为这种混合工作负载而生:

  • SCM写缓存:所有写入操作,无论大小或随机性如何,都由高性能的SCM层吸收,以极低的延迟处理。然后,这些数据被智能地以最优的顺序方式写入QLC闪存 21。
  • 分布式元数据:所有元数据也存储在低延迟的SCM上,并且由于DASE架构,所有C-Node都可以并行访问。这消除了可能困扰Lustre等系统的集中式元数据服务器瓶颈,从而在元数据密集型操作(如创建数百万个小文件)上表现出色 5。

这使得VAST平台能够高效支持整个AI管道,从数据准备(通常涉及小文件和随机I/O)到模型训练(大型顺序读取)和推理(低延迟随机读取) 8。

03

与NVIDIA生态的深度协同

VAST平台不仅与NVIDIA硬件兼容,更是与之深度协同集成。这种合作始于2016年,VAST的DASE架构深受当时系统解耦趋势的影响 33。

  • NVIDIA GPUDirect Storage:VAST支持GPUDirect Storage技术,该技术允许NVIDIA GPU直接从NVMe存储网络读写数据,绕过CPU和系统内存。这显著降低了I/O延迟和CPU开销,进一步加速了数据管道 8。
  • DGX SuperPOD认证:VAST是首个通过NVIDIA DGX SuperPOD认证的企业级NAS解决方案 33。这是一项严格的验证,确保在作为NVIDIA旗舰AI超级计算机架构的存储基础时,其性能、可扩展性和可靠性都达到最高标准 33。这种认证是NVIDIA作为AI计算领域领导者的强力背书,极大地降低了企业客户的采购风险。
  • 未来方向:计算与存储的融合:这种集成还在不断深化。VAST已宣布能够将NVIDIA GPU用作C-Node,并在VAST软件环境中直接运行NVIDIA NIM微服务(优化的AI模型)24。这种名为“InsightEngine”的概念,允许AI驱动的数据处理(如实时向量嵌入生成)在数据写入时就地发生,消除了又一个数据移动步骤,将存储系统转变为一个主动的数据处理平台 24。这种深度合作正在形成一个事实上的“AI基础设施标准”,为客户提供了一个预集成、全栈、性能验证的AI数据中心解决方案。

06

赋能安全多租户主权云

本节将重点讨论企业级的安全、合规和多租户特性,这些是主权云和商业化GPUaaS服务不可或缺的要求。它将证明VAST平台的设计初衷不仅是为了性能,也是为了构建安全的共享环境。

01

租户隔离:安全数据共享

平台提供了多层次的租户隔离机制,这对于确保使用像Haein集群这样的共享基础设施的不同政府机构、研究团体或商业客户之间的数据互不可见至关重要 25。

  • 租户模型:系统原生支持“租户”概念,即相互隔离的数据和管理域。每个租户都可以链接到其独立的认证源(如Active Directory、LDAP)20。
  • 网络分段:管理员可以使用VLAN标签来控制哪些虚拟IP暴露给哪些网段,并可以创建“服务器池”将一组C-Node专用于特定租户或工作负载,从而实现网络和性能的双重隔离 25。
  • 数据隔离(视图):一个“视图”是属于特定租户的多协议共享、导出或存储桶。可以通过视图策略来控制基于IP地址、VLAN和协议的访问,从而创建安全隔离的数据容器 31。

02

精细控制与公平:RBAC、QoS

  • 混合访问控制:VAST实现了一种复杂的混合访问控制模型,结合了用于管理访问的基于角色的访问控制(RBAC)和用于数据访问的基于属性的访问控制(ABAC)。这允许基于用户的身份、数据属性和环境条件制定极其精细的安全策略 20,对于政府和国防领域常见的“多类别安全”(MCS)环境至关重要 20。
  • 服务质量(QoS):为防止共享环境中的“吵闹的邻居”问题,管理员可以为每个视图设置QoS限制(带宽和/或IOPS)。这确保了性能的公平性,并允许像SKT这样的服务提供商提供不同等级的服务 25。

03

数据主权与合规性

  • 端到端加密:所有静态数据都使用经过FIPS 140-3验证的加密库进行加密。平台还通过密钥管理互操作协议(KMIP)支持外部密钥管理,允许租户控制自己的加密密钥,这是实现数据主权和隔离的关键特性 20。
  • 勒索软件防护:平台提供“不可变快照”功能,在快照到期前,任何人都无法删除它——包括拥有root权限的管理员。这为抵御外部勒索软件攻击和内部威胁提供了坚固的防线 25。
  • 严格的合规性:平台的设计旨在满足严苛的政府和行业合规标准。操作系统根据DISA STIG指南进行了加固,其安全特性明确映射到NIST SP 800-53控制项,极大地简化了在安全环境中部署时的审计和认证流程 20。

VAST在安全和多租户方面的投入,表明这些特性是其架构的支柱,而非附加功能。与许多为可信单租户环境设计的传统HPC文件系统不同,VAST从一开始就为零信任、多租户的世界而构建。这种原生的集成能力,使其成为一个能够直接用于商业GPUaaS和安全政府云的平台。此外,VAST在合规性工程上的投入(如FIPS、NIST、STIG认证)直接降低了客户的总拥有成本(TCO)。对于受监管行业(政府、金融、医疗)的组织而言,获得和维持运营授权(ATO)的成本是巨大的。一个“合规设计”的平台,通过自动化和预验证,极大地减轻了这一运营负担,节省了人力,缩短了审计周期,并最大限度地降低了因合规失败而产生罚款的风险。


07

结论与战略意义

本节将综合文章的发现,从技术细节转向对VAST Data在AI基础设施市场中战略地位的评估,并将Haein集群的成功案例定位为一个可复制且具有深远影响的未来国家级和大型科研计算蓝图。

01

AI时代架构转变

文章的结论是,基于DASE架构的VAST Data平台代表了对传统存储范式的根本性突破。它并非一项渐进式改进,而是一种专为应对现代GPU驱动的AI工作负载的极端和多样化需求而设计的新型架构。其核心价值在于同时解决了三个历史上相互冲突的目标:实现极致性能、支持大规模扩展以及提供颠覆性的运营简易性。

02

Haein集群:一个可复制的蓝图

SK Telecom成功部署的Haein集群,为这一新型架构模型提供了强有力的实践验证。它证明了构建一个主权的、多租户的、虚拟化的GPUaaS云是完全可行的,并且可以在不牺牲性能的前提下,实现运营上的高度敏捷(分钟级配置)。该模型为其他寻求建立自主AI能力的国家、国家实验室和大型研究机构提供了一个经过验证的模板,展示了如何在速度、安全、合规和成本之间取得平衡 11。

03

战略定位与未来展望

通过与NVIDIA生态系统的深度融合,并解决GPU带来的关键数据挑战,VAST已将自己战略性地定位为一个基础性的“AI操作系统”,而不仅仅是一个存储供应商。该平台独特地结合了扁平化的全闪存存储层、对混合I/O工作负载的精通、降低专业人员需求的运营简易性以及强大的安全态势,使其成为全球最先进、最具战略重要性的GPU基础设施的理想数据基石。随着AI规模的持续扩大,一个为这个计算新纪元从第一性原理出发设计的数据平台,其重要性将日益凸显。

参考资料

  1. Computing infrastructure challenges in AI workloads ..., accessed August 22, 2025, https://www.datasciencecentral.com/computing-infrastructure-challenges-in-ai-workloads/
  2. The Storage & Memory Struggles in Today's AI Data Centers - ScaleFlux, accessed August 22, 2025, https://scaleflux.com/blog/when-data-becomes-a-monster-the-storage-memory-struggles-in-todays-ai-data-centers/
  3. From GPUs to megawatts: the new demands of AI on infrastructure, accessed August 22, 2025, https://info.teledynamics.com/blog/from-gpus-to-megawatts-the-new-demands-of-ai-on-infrastructure
  4. Key Challenges in Scaling AI Data Center Clusters | Keysight Blogs, accessed August 22, 2025, https://www.keysight.com/blogs/en/inds/2025/2/11/key-challenges-in-scaling-ai-data-center-clusters
  5. Lustre vs GPFS: Key Differences in Most Popular HPC File Systems, accessed August 22, 2025, https://www.baculasystems.com/blog/lustre-vs-gpfs/
  6. Storage Benchmarking: Distributed File Storage | CoreWeave, accessed August 22, 2025, https://www.coreweave.com/blog/storage-benchmarking-distributed-file-storage
  7. Refresh the Future: Powering NVIDIA DGX SuperPODs with Blackwell and DDN, accessed August 22, 2025, https://www.ddn.com/blog/refresh-the-future-powering-nvidia-dgx-superpods-with-blackwell-and-ddn/
  8. VAST Data AI Reference Architecture, accessed August 22, 2025, https://assets.ctfassets.net/2f3meiv6rg5s/3zcJ35iXQ7ATkVUpJdj9Us/e66943a0e3011bec4124a79683598102/vast-data-ai-reference-architecture.pdf
  9. Comparison of WEKA, VAST and Pure storage : r/HPC - Reddit, accessed August 22, 2025, https://www.reddit.com/r/HPC/comments/1g3fzq2/comparison_of_weka_vast_and_pure_storage/
  10. McKinsey technology trends outlook 2025, accessed August 22, 2025, https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-top-trends-in-tech
  11. VAST Data Partners with SKT on Sovereign AI Platform - TECHx Media, accessed August 22, 2025, https://techxmedia.com/en/vast-data-partners-with-skt-on-sovereign-ai-platform/
  12. VAST Data Collaborates With SK Telecom To Optimize Koreas Largest AI Infrastructure Based On NVIDIA Supercomputers - TechDogs, accessed August 22, 2025, https://www.techdogs.com/tech-news/globe-newswire/vast-data-collaborates-with-sk-telecom-to-optimize-koreas-largest-ai-infrastructure-based-on-nvidia-supercomputers
  13. VAST Data, SK Telecom partner on Korea's sovereign AI infra - RCR Wireless News, accessed August 22, 2025, https://www.rcrwireless.com/20250818/ai-infrastructure/vast-data-ai
  14. India's 100 Most Influential People in AI - Analytics India Magazine, accessed August 22, 2025, https://analyticsindiamag.com/ai-highlights/indias-100-most-influential-people-in-ai/
  15. Core42 + VAST: Building Sovereign AI Clouds - YouTube, accessed August 22, 2025, https://www.youtube.com/watch?v=WMNHkpsC4gI
  16. An Open Door: AI Innovation in the Global South amid Geostrategic Competition - CSIS, accessed August 22, 2025, https://www.csis.org/analysis/open-door-ai-innovation-global-south-amid-geostrategic-competition
  17. SK Telecom Partners with VAST Data and NVIDIA for National-Scale AI Infrastructure in Korea - AInvest, accessed August 22, 2025, https://www.ainvest.com/news/sk-telecom-partners-vast-data-nvidia-national-scale-ai-infrastructure-korea-2508/
  18. VAST Data and SK Telecom Build South Korea's Largest AI Cloud, accessed August 22, 2025, https://thetechnologyexpress.com/vast-data-and-sk-telecom-build-south-koreas-largest-ai-cloud/
  19. VAST Data Collaborates with SK Telecom to Optimize Korea's, accessed August 22, 2025, https://www.globenewswire.com/news-release/2025/08/14/3133512/0/en/VAST-Data-Collaborates-with-SK-Telecom-to-Optimize-Korea-s-Largest-AI-Infrastructure-based-on-NVIDIA-Supercomputers.html
  20. The VAST Data Platform for Multi-Category Security, accessed August 22, 2025, https://assets.ctfassets.net/2f3meiv6rg5s/5tqomuR2cznjq7BXxZvndL/b099318352e46687901fc42137869a72/the-vast-data-platform-for-multi-category-security.pdf
  21. DASE (Disaggregated and Shared Everything) | Continuum Labs, accessed August 22, 2025, https://training.continuumlabs.ai/infrastructure/vast-data-platform/dase-disaggregated-and-shared-everything
  22. VAST Data Defies Convention To Make Simple And Embarrassingly ..., accessed August 22, 2025, https://assets.ctfassets.net/2f3meiv6rg5s/5GslT9ENHoxebH8PMQNYiM/fcdd8d59ca01d6641156949972ad07aa/vast-data-exascale-nas-white-paper.pdf
  23. VAST Storage Configuration - Juniper Networks, accessed August 22, 2025, https://www.juniper.net/documentation/us/en/software/jvd/jvd-ai-dc-apstra-amd/vast_storage_configuration.html
  24. VAST integrates Nvidia GPUs and NIM for AI insights - Blocks and Files, accessed August 22, 2025, https://blocksandfiles.com/2024/10/01/vast-insightengine/
  25. The VAST Data Platform, accessed August 22, 2025, https://40268.fs1.hubspotusercontent-na1.net/hubfs/40268/Whitepapers/VAST-Data-Platform-Whitepaper.pdf
  26. Eli5 - Vast vs Weka, HPC & Deep Learning - Reddit, accessed August 22, 2025, https://www.reddit.com/r/HPC/comments/18mwvgq/eli5_vast_vs_weka_hpc_deep_learning/
  27. VAST Data's storage system architecture - Glenn K. Lockwood, accessed August 22, 2025, https://lockwood115.rssing.com/chan-11520640/all_p4.html
  28. Divide Deepens Between HPC and Enterprise Storage - The Next Platform, accessed August 22, 2025, https://www.nextplatform.com/2020/10/20/divide-deepens-between-hpc-and-enterprise-storage/
  29. Parallel File Systems - | HPC @ LLNL - Lawrence Livermore National Laboratory, accessed August 22, 2025, https://hpc.llnl.gov/hardware/file-systems/parallel-file-systems
  30. Why is everyone so enamored with VAST? : r/storage - Reddit, accessed August 22, 2025, https://www.reddit.com/r/storage/comments/1ff7kon/why_is_everyone_so_enamored_with_vast/
  31. VAST Data Platform Software User Guide - Manuals.plus, accessed August 22, 2025, https://manuals.plus/vast/data-platform-software-manual
  32. what problem vast data tryin to solve here ? : r/storage - Reddit, accessed August 22, 2025, https://www.reddit.com/r/storage/comments/1l2ga6y/what_problem_vast_data_tryin_to_solve_here/
  33. VAST Data Achieves NVIDIA DGX SuperPOD Certification | Inside ..., accessed August 22, 2025, https://insidehpc.com/2023/05/vast-data-achieves-nvidia-dgx-superpod-certification/
  34. GPU Direct Storage with VAST Data Universal Storage - YouTube, accessed August 22, 2025, https://www.youtube.com/watch?v=bW_0_JKuTt0
  35. DGX SuperPOD: AI Infrastructure for Enterprise Deployments | NVIDIA, accessed August 22, 2025, https://www.nvidia.com/en-us/data-center/dgx-superpod/
  36. VAST Data Announces Enterprise-Ready AI Stack with NVIDIA DGX - Inside HPC, accessed August 22, 2025, https://insidehpc.com/2025/03/vast-data-announces-enterprise-ready-ai-stack-via-with-nvidia-dgx/
  37. VAST Data Platform - Security Configuration Guide, accessed August 22, 2025, https://assets.ctfassets.net/2f3meiv6rg5s/1EjtlUgepkDQkUr8o2IvcN/542ec45129ec6614d9656dd7524311f4/VAST_Data_Platform_Security_Configuration_Guide_v1.5.pdf

Notice:Human's prompt, Datasets by Gemini-2.5-Pro-DeepResearch

---【本文完】---


👇阅读原文,查看历史文章,推荐PC端打开 💻(更新到 8.16)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 表3.1 存储系统架构对比
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档