首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek再开源力作:FP8 GEMM库DeepGEMM,核心逻辑仅300行!

DeepSeek近日宣布启动“开源周”活动,计划逐步公开五个重要的代码库。继此前已发布的FlashMLA和DeepEP之后,DeepSeek再次推出开源项目——DeepGEMM。

DeepGEMM是一款专注于dense和MoE(混合专家)通用矩阵乘法(GEMM)的高效FP8 GEMM库,专为V3/R1的训练和推理任务设计。据官方介绍,在Hopper GPU上,DeepGEMM的性能峰值可达到1350+ FP8 TFLOPS,展现了其强大的计算能力。

DeepGEMM具有以下几大亮点:

首先,它的依赖项极少,设计简洁明了,如同教程一般,让用户能够轻松上手。其次,DeepGEMM实现了完全即时编译,提供了更高的灵活性和效率。尽管其核心逻辑代码仅约300行,但在多数矩阵尺寸上的性能表现却优于经过专家调优的内核,展示了其卓越的性能优化能力。

DeepGEMM不仅支持dense布局,还兼容两种MoE布局,这一特性使其在处理复杂计算任务时更具优势。通过这一开源项目,DeepSeek再次展示了其在高性能计算领域的深厚积累和创新能力。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OVmYV1R9gTs_3cj5ehLgN6AA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券