IT时代网6月1日消息,近日,DeepSeek-V4 Flash在摩尔线程MTT S5000平台上的推理性能实现显著跃迁。InferenceX周度测试数据显示,单并发场景模型单GPU吞吐较4月底基线提升约18.8倍,高批次并发场景下提升幅度进一步放大至近80倍。
同时,首字时延、每字时延与端到端完成时间同步实现数量级下降。在8k/1k上下文长度、PD分离部署形态下,模型验证通过,线性扩展能力也得到确认。
深入模型执行主链路优化
这组数据的核心意义在于吞吐持续上升、时延持续下降,意味着优化已深入模型执行主链路,而非停留在表层调参。其背后是FlashMLA、DeepGEMM、DeepEP等核心算法模块在DeepSeek-V4推理场景的快速深度优化,以及围绕DeepSeek-V4模型结构持续高效率高质量补齐自定义算子实现的系统性工程能力释放。
形成四类联合优化路径
联合优化路径包含四层相互配合的工作:第一层是框架执行路径的收敛;第二层是面向服务形态的能力补齐;第三层是围绕具体热点模块,把FlashMLA、DeepGEMM、DeepEP等稳定接入主执行流;第四层是让热点模块具备按场景切换的能力。
国产AI算力底座持续夯实
摩尔线程以全功能GPU技术路线为根基,持续将前沿模型的推理潜力转化为可落地、可复用的工程能力。从4月底建立性能基线,到5月下旬多维度指标持续收敛,MTT S5000对DeepSeek-V4的完整支撑能力正在逐步夯实,为国产AI算力底座注入更扎实的推理性能。