在当今的科学研究中,数据的规模和复杂性正在以惊人的速度增长。洛杉矶国家实验室(Los Alamos National Laboratory)的科学家们在进行大规模模拟时,面临着如何高效管理和分析这些数据的挑战。传统的分析方法需要在计算节点和存储节点之间传输整个数据集,这不仅消耗了大量的时间和资源,还在内存需求上造成了巨大的压力。
为了解决这一问题,Los Alamos与Hammerspace和SK hynix合作,开发了一种基于pNFS的查询推送架构。这一架构通过在存储层执行复杂的查询,显著减少了数据移动和下游系统的负载。
这种架构的核心在于将查询处理从计算节点转移到存储节点。通过使用标准的pNFS协议和开源工具,如Presto、Apache Spark和Apache DataFusion,系统能够在数据所在的位置执行查询。这种方法不仅减少了不必要的数据传输,还提高了分析的速度和效率。
《该演示操作流程示意图》
传统痛点:科学模拟产生的数据量动辄 PB 级,传统分析需将全量数据从存储传输到计算节点,导致网络带宽和内存资源成为瓶颈。例如,小行星撞击模拟中,传统方法需传输 PB 级数据,内存占用达 TB 级。
在实际应用中,这种架构已经显示出显著的成效。例如,在模拟小行星撞击地球海洋的过程中,通过将过滤操作下推到存储层,数据移动和客户端内存使用减少了99%。工程师通过本地笔记本完成原本需百万美元级超级计算机的分析任务。
《普通笔记本电脑也能处理和分析PB级的数据集,模拟小行星撞击地球海洋的过程》
未来,研究人员计划进一步优化这一架构,解决当前存在的一些限制,如客户端擦除编码和多进程并发写入的支持。通过这些改进,pNFS架构有望在未来的科学计算中发挥更大的作用,成为可视化科学发现的加速器,为 E 级计算(百亿亿次计算)提供可扩展的数据处理框架。
ISC-HPC 2025报告链接👇:
https://nbviewer.org/github/zhengqmark/lanl-isc25/blob/main/isc-brochure.pdf