部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >速看!DeepSeek开源周第一弹:FlashMLA加速GPU计算!

速看!DeepSeek开源周第一弹:FlashMLA加速GPU计算!

作者头像
AgenticAI
发布于 2025-03-18 08:45:24
发布于 2025-03-18 08:45:24
4600
代码可运行
举报
文章被收录于专栏:AgenticAIAgenticAI
运行总次数:0
代码可运行

🚀DeepSeek开源周第一天,发布加速推理的基础设置FlashMLA,DeepSeek为 Hopper GPU 优化高效 MLA 解码内核,支持变长序列,并已投入生产使用。

✅ 支持 BF16 ✅ 分页 KV 缓存(块大小 64) ⚡ 在 H800 上实现 3000 GB/s 内存带宽 和 580 TFLOPS 计算性能!

快速开始

  • 克隆项目
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
git clone https://github.com/deepseek-ai/FlashMLA.git
  • 安装
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python setup.py install
  • 测试
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python tests/test_flash_mla.py

在 H800 SXM5 上,使用 CUDA 12.6,在受内存限制的配置下可实现高达 3000 GB/s 的带宽,在受计算限制的配置下可达到 580 TFLOPS 的计算性能。

  • 使用
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers):
    ...
    o_i, lse_i = flash_mla_with_kvcache(
        q_i, kvcache_i, block_table, cache_seqlens, dv,
        tile_scheduler_metadata, num_splits, causal=True,
    )
    ...
  • 最低要求
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Hopper GPUs
CUDA 12.3 and above
PyTorch 2.0 and above
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepSeek 开源的FlashMLA到底是什么?
DeepSeek之前开源的FlashMLA,其github仓库代码已经来带了6000+的stars数量了,果然DeepSeek团队才是真正的OpenAI。
算法一只狗
2025/03/18
980
大胆点!你猜DeepSeek的利润率有多高?
这种一周真是热闹啊,DeepSeek开源周,连续五天(2025年2月24日至28日)开源了5个核心技术项目,覆盖AI模型训练、推理优化、文件系统等多个领域,在今天还放出来了One more thing,直接把自己的利润率放出来了(真不拿用户当外人,哈哈)
拓荒者IT
2025/03/16
330
大胆点!你猜DeepSeek的利润率有多高?
一文读懂 DeepSeek 开源周的五大神器!让普通人也能跨AI的山和海
你是否曾经被高昂的AI硬件成本折磨到崩溃?是否因为大模型训练速度太慢而熬夜到天亮?是否为企业AI落地的算力瓶颈而焦头烂额?...
一臻AI
2025/03/06
1270
一文读懂 DeepSeek 开源周的五大神器!让普通人也能跨AI的山和海
DeepSeek 开源 FlashMLA,计算性能翻倍,踩爆英伟达 “牙膏”
DeepSeek开源周首日重磅发布!首个项目FlashMLA解锁H800算力极限,AI推理速度飙升
create17
2025/03/17
630
DeepSeek 开源 FlashMLA,计算性能翻倍,踩爆英伟达 “牙膏”
DeepSeek开源周Day1:重磅发布FlashMLA,重新定义AI推理效率天花板
DeepSeek开源周Day1:重磅发布FlashMLA,重新定义AI推理效率天花板
没事学点编程小知识
2025/02/24
1160
DeepSeek开源FlashMLA,从GPU架构进行优化开始......
终于,中国的OpenAI----DeepSeek ,在全球爆火之后,开源了他们自己的第一天项目。
AIGC新知
2025/02/26
1111
DeepSeek开源FlashMLA,从GPU架构进行优化开始......
白话科普 | DeepSeek开源周首日王炸!FlashMLA核弹级发布,技术原理详细解析
DeepSeek 开源周首日发布的 FlashMLA 项目,如同一枚投入 AI 领域的深水炸弹,在技术社区掀起了海啸级震荡。
AI研思录
2025/02/26
2981
白话科普 | DeepSeek开源周首日王炸!FlashMLA核弹级发布,技术原理详细解析
DeepSeek:大模型跃迁AGI,探索智能新航道(17/18)
文章摘要:文章详细介绍了DeepSeek在AI领域的发展历程、技术创新、开源策略以及其在迈向通用人工智能(AGI)过程中的成就与挑战。DeepSeek凭借其独特的技术路径,如混合专家(MoE)架构、多头潜在注意力(MLA)等,在大模型领域迅速崛起,展现出强大的性能和广泛的应用潜力。其开源策略推动了全球AI技术的普及和发展,同时也在智能开发、科学计算、企业决策等多个领域实现了深度应用。尽管面临诸多挑战,DeepSeek仍展现出巨大的发展潜力,为AGI的实现奠定了坚实基础。
正在走向自律
2025/03/23
1460
DeepSeek:大模型跃迁AGI,探索智能新航道(17/18)
DeepSeek 开源周Day 1|FlashMLA 刷新AI性能天花板
今天给大家介绍一个重磅武器 - DeepSeek刚刚开源的FlashMLA - 上线45分钟就收获400+ Star,现在已经飙升到6K+了!
一臻AI
2025/03/06
710
DeepSeek 开源周Day 1|FlashMLA 刷新AI性能天花板
DeepSeek开源周 Day01:从FlashMLA背后原理回顾KV Cache
今天DeepSeek开源周第一天,开放了FlashMLA仓库,1小时内星标1.6k!
致Great
2025/02/25
2650
DeepSeek开源周 Day01:从FlashMLA背后原理回顾KV Cache
deepseek开源周第一天开源的FlashMLA
这是GitHub的地址 https://github.com/deepseek-ai/FlashMLA
Michel_Rolle
2025/02/24
6390
DeepSeek FlashMLA:技术架构与原理解析
在当今人工智能领域,大语言模型(LLMs)的发展正以惊人的速度改变着我们的生活和工作方式。然而,随着模型规模的不断扩大,如何在有限的硬件资源下高效运行这些模型,成为了一个亟待解决的问题。2025年2月24日,DeepSeek开源了其首个项目——FlashMLA,这一创新技术为大模型的高效推理提供了一种全新的解决方案。
用户7353950
2025/02/26
2450
DeepSeek FlashMLA:技术架构与原理解析
FlashAttention:快速且内存高效的准确注意力机制
在深度学习领域,注意力机制是提高模型性能的关键组件。然而,传统的注意力机制在长序列处理时会消耗大量内存和计算资源。为了解决这个问题,Tri Dao等人提出了FlashAttention,这是一种快速且内存高效的注意力机制。本文将介绍FlashAttention及其改进版FlashAttention-2的核心概念、安装方法和使用示例。
857技术社区
2024/07/04
1.4K0
FlashAttention:快速且内存高效的准确注意力机制
DeepSeek开源周首日放大招,我和它进行了一次“深度思考”的采访
FlashMLA是 DeepSeek 开源的一个高性能 MLA(Multi-Layer Attention)解码内核,专为英伟达 Hopper 架构 GPU(如 H100)优化设计,旨在加速大语言模型(LLM)推理过程中的注意力计算。它是针对 Transformer 模型中的 Multi-Head Attention(MHA) 或 Multi-Layer Attention(MLA) 机制的底层实现优化,特别适用于生成任务(如文本生成、对话系统)中的自回归解码阶段。
算力之光
2025/02/24
1800
DeepSeek开源周首日放大招,我和它进行了一次“深度思考”的采访
硬件加速与技术创新双轮驱动:DeepSeek和ChatGPT性能进阶的未来蓝图
然而,随着 AI 应用场景的不断拓展和任务复杂度的持续增加,对 DeepSeek 和 ChatGPT 等模型的性能提出了更高的要求。在实际应用中,这些模型需要处理海量的数据和复杂的计算任务,这对其运行效率和响应速度构成了严峻的挑战。例如,在智能客服领域,当大量用户同时咨询问题时,模型需要快速给出准确的回答,以提高用户满意度;在智能写作领域,模型需要在短时间内生成高质量的文章,满足用户的创作需求。因此,提升 DeepSeek 和 ChatGPT 的性能,使其能够更高效地处理复杂任务,成为了当前 AI 领域亟待解决的关键问题。
用户11396661
2025/02/25
1410
硬件加速与技术创新双轮驱动:DeepSeek和ChatGPT性能进阶的未来蓝图
在GPU上加速RWKV6模型的Linear Attention计算
本文主要讲一些看到的RWKV 6模型的Linear Attention模块推理加速方法,在这篇博客中暂不涉及对kernel的深入解析。首先,flash-linear-attention(https://github.com/sustcsonglin/flash-linear-attention )这个仓库旨在对各种线性Attention架构进行工程加速,例如RetNet,GLA,Manba,RWKV6(2024年4月引入)。它使用Triton来编写代码,并针对不同的线性Transformer架构使用不同的优化方式。例如对于RWKV 6就采用在时间维度进行kernel fuse的方式来加速。其次,RWKV-CUDA是RWKV系列模型迭代中针对Linear Attention模块的改进开发的自定义高性能cuda kernel(https://github.com/BlinkDL/RWKV-CUDA)。flash-rwkv(https://github.com/BBuf/flash-rwkv)仓库在RWKV-CUDA的最优性能算子的基础上进行了封装,提供了rwkv5_cuda_linear_attention和rwkv6_cuda_linear_attention两个接口方便在HuggingFace模型实现中直接加速推理的prefill阶段速度。
BBuf
2024/05/13
3250
在GPU上加速RWKV6模型的Linear Attention计算
读懂DeepSeek开源周:一场技术普惠的嘉年华,极限提升大模型效率
在2025年开年,DeepSeek的发布,在全社会造成了轰动。这是因为,DeepSeek通过一系列技术革新,大大降低了生成式AI的研发与使用成本,使得生成式AI有望在近期走入千家万户,从而帮助全社会提升工作效率。
小腾资讯君
2025/03/04
1660
DeepSeek绝不仅仅是开源的胜利
此前, Meta 首席人工智能科学家杨立昆(Yann LeCun)表示,DeepSeek 的成功带来的最大启示是保持 AI 模型开源的重要性,这样每个人都能从中受益。他表示,这并不是中国的人工智能“超越美国”,而是“开源模型战胜了专有模型”。 那么,事实确实如此吗?本文整理自 InfoQ 策划的 DeepSeek 系列直播第四期节目。在直播中,极客邦科技创始人 &CEO 霍太稳对话 PPIO 派欧云联合创始人 &CTO、TGO 鲲鹏会学员王闻宇,深入探讨了 DeepSeek 爆火背后,开源策略对 AI 企业商业模式的影响,以及开源与闭源路线带来的思考。 在王闻宇看来,除了在模型训练算法和工程层面的突破外,DeepSeek 在 AI 基础设施方面的重要创新,使得许多 AI 基础设施公司能够探索降低成本和提升性能的方法。而推理成本的降低将使得 AI 大规模应用的门槛变低。当 AI 推理成本实现十倍、百倍甚至千倍的降低时,AI 应用将迎来爆发式增长。
深度学习与Python
2025/02/25
1490
DeepSeek绝不仅仅是开源的胜利
通俗讲解DeepSeek开源:FlashMLA,究竟是个啥?(第一弹)
3. 开源免费,技术普惠:开发者福音,更多被算力卡脖子的应用将更快释放,几天就能训练与部署垂直领域AI;
架构师之路
2025/03/20
1.5K0
通俗讲解DeepSeek开源:FlashMLA,究竟是个啥?(第一弹)
TensorFlow 1.x 深度学习秘籍:11~14
在本章中,我们将讨论如何将生成对抗网络(GAN)用于深度学习领域,其中关键方法是训练图像生成器来挑战鉴别器,并同时训练鉴别器来改进生成器。 可以将相同的方法应用于不同于图像领域。 另外,我们将讨论变分自编码器。
ApacheCN_飞龙
2023/04/23
1.1K0
TensorFlow 1.x 深度学习秘籍:11~14
推荐阅读
相关推荐
DeepSeek 开源的FlashMLA到底是什么?
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文