首页
学习
活动
专区
工具
TVP
发布

GiantPandaCV

专栏成员
722
文章
1020239
阅读量
101
订阅数
CUDA-MODE 课程笔记 第一课: 如何在 PyTorch 中 profile CUDA kernels
一直想系统看一下某个课程系统和科学的学习下 CUDA ,感觉 CUDA-MODE 这个课程能满足我的需求。这个课程是几个 PyTorch 的 Core Dev 搞的,比较系统和专业。不过由于这个课程是 Youtube 上的英语课程,所以要学习和理解这个课程还是需要花不少时间的,我这里记录一下学习这个课程的每一课的笔记,希望可以通过这个笔记帮助对这个课程以及 CUDA 感兴趣的读者更快吸收这个课程的知识。这个课程相比于以前的纯教程更加关注的是我们可以利用 CUDA 做什么事情,而不是让读者陷入到 CUDA 专业术语的细节中,那会非常痛苦。伟大无需多言,感兴趣请阅读本文件夹下的各个课程的学习笔记。
BBuf
2024-07-02
5070
Huggingface CEO:阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位
早上浏览朋友圈的时候注意到HuugingFace的CEO Celm官宣了一个新的LLM排行榜OpenLLM Leaderboard2,阿里的Qwen2-72b-Instruct版本成为这个新排行榜上的第一名。此前,在 OpenLLM Leaderboard1 上阿里的 Qwen2-72b-Instruct 开源之后就一直是第一。可以说,Qwen2目前算是真正的开源大模型国产之光了。
BBuf
2024-07-01
3850
MLIR_对自定义IR Dialect编写bufferization pass
最近在整理先前实习做的一些工作,主要是对AI compiler做基于mlir的重构,以下是之前写的compiler frontend的一个比较基础的pass,针对自定义的IR Dialect做bufferization。
BBuf
2024-07-01
1490
如何使用“LoRa”的方式加载ONNX模型:StableDiffusion相关模型 的C++推理
1.基于 onnxruntime,将 StableDiffusionInpaintPipeline、StableDiffusionControlNetImg2ImgPipeline(stablediffusion + controlnet + LoRa) C++工程化;
BBuf
2024-07-01
4360
大模型KV Cache节省神器MLA学习笔记(包含推理时的矩阵吸收分析)
这里提一下,我维护的几个记录个人学习笔记以及社区中其它大佬们的优秀博客链接的仓库都获得了不少star,感谢读者们的认可,我也会继续在开源社区多做贡献。github主页:https://github.com/BBuf ,欢迎来踩
BBuf
2024-06-18
9360
60行代码加速20倍 NEON实现深度学习OD任务后处理绘框
【前言】 本文版权属于GiantPandaCV,未经允许,请勿转载!最近在学neon汇编加速,由于此前OD任务发现在检测后处理部分使用OpenCV较为占用资源且耗时,遂尝试使用NEON做后处理绘框,以达到加速并降低CPU资源消耗的目的。
BBuf
2024-06-18
1440
vAttention:用于在没有Paged Attention的情况下Serving LLM
paper链接:https://arxiv.org/pdf/2405.04437v1
BBuf
2024-06-18
3320
GQA,MLA之外的另一种KV Cache压缩方式:动态内存压缩(DMC)
在openreview上看到最近NV的一个KV Cache压缩工作:https://openreview.net/pdf?id=tDRYrAkOB7 ,感觉思路还是有一些意思的,所以这里就分享一下。
BBuf
2024-06-18
2700
I-LLM:首次实现了LLM全整形量化,精度逼近浮点,超过Smooth/Omini/AffineQuant
来源丨https://zhuanlan.zhihu.com/p/701393483
BBuf
2024-06-06
6740
硬件高效的线性注意力机制Gated Linear Attention论文阅读
上篇文章 flash-linear-attention中的Chunkwise并行算法的理解 根据GLA Transformer Paper(https://arxiv.org/pdf/2312.06635 作者是这位大佬 @sonta)通过对Linear Attention的完全并行和RNN以及Chunkwise形式的介绍理解了Linear Attention的Chunkwise并行算法的原理。但是paper还没有读完,后续在paper里面提出了Gated Linear Attention Transformer,它正是基于Chunkwise Linear Attention的思想来做的,不过仍有很多的工程细节需要明了。这篇文章就来继续阅读一下paper剩下的部分,把握下GLA的计算流程以及PyTorch实现。下面对Paper的第三节和第四节进行理解,由于个人感觉Paper公式有点多,所以并没有对paper进行大量直接翻译,更多的是读了一些部分之后直接大白话一点写一下我对各个部分的理解和总结。这样可能会忽略一些细节,建议读者结合原Paper阅读。
BBuf
2024-06-05
2610
原理&图解vLLM Automatic Prefix Cache(RadixAttention)首Token时延优化
来源丨https://zhuanlan.zhihu.com/p/693556044
BBuf
2024-06-04
3.8K0
flash-linear-attention中的Chunkwise并行算法的理解
这里提一下,我维护的几三个记录个人学习笔记以及社区中其它大佬们的优秀博客链接的仓库都获得了不少star,感谢读者们的认可,我也会继续在开源社区多做贡献。github主页:https://github.com/BBuf ,欢迎来踩
BBuf
2024-06-03
2040
大模型训练:Megatron-Core中的通信优化
来源丨https://zhuanlan.zhihu.com/p/694877232
BBuf
2024-06-03
8100
​OverlapMamba 具备超强泛化能力的定位方法
精准的定位是自动驾驶系统独立决策和安全运行的基石,也是SLAM中环路闭合检测和全局定位的核心。传统方法通常采用点云数据作为输入,和基于深度学习的激光雷达定位(LPR)技术。然而,新近提出的Mamba深度学习模型与状态空间模型(SSM)相结合,展现出处理长序列数据的巨大潜力。基于此,作者开发了OverlapMamba——一种创新的定位网络,它将输入的视距视图(RVs)转化为序列数据。该方法采用了一种新颖的随机重构方法来构建偏移状态空间模型,有效压缩了视觉数据的表示。在三个不同的公共数据集上进行评估,该方法能够有效地检测环路闭合,即便是在从不同方向重访先前的位置时也能保持稳定性。依赖于原始的视距视图输入,OverlapMamba在时间复杂度和处理速度上优于传统的激光雷达和多视图融合方法,展现了卓越的定位能力和实时处理效率。
BBuf
2024-06-03
1980
[并行训练]Context Parallelism的原理与代码浅析
来源丨https://zhuanlan.zhihu.com/p/698447429
BBuf
2024-06-03
1.9K0
NEON做色域变化_ 用单核性能无限逼近八核并行OpenCV
最近开始接触neon汇编,觉得这个东西在一些应用场景上好用,遂做些记录,分享下自己做的一些工作。
BBuf
2024-05-21
1450
flash-linear-attention的fused_recurrent_rwkv6 Triton实现精读
继续补 在GPU上加速RWKV6模型的Linear Attention计算 没有写完的内容,对flash-linear-attention库(https://github.com/sustcsonglin/flash-linear-attention)中的fused_recurrent_rwkv6和chunk_rwkv6的前向实现进行解析,也是对Triton写cuda kernel进行继续学习。这里先解读一下fused_recurrent_rwkv6的实现,chunk_rwkv6的实现后续随缘说。
BBuf
2024-05-21
1240
AffineQuant: 大语言模型的仿射变换量化
本文研究了大型语言模型(LLMs)在移动和边缘设备上的推理加速问题,这一问题在现实应用中具有重要意义。随着大型语言模型在多种任务中展现出卓越的性能,它们吸引了越来越多的关注。然而,这些模型通常需要庞大的计算资源,尤其是在训练和推理阶段。特别是在资源受限的移动和边缘设备上,模型的高效推理显得尤为重要。为此,研究者们寻求通过压缩技术,如量化,来减少模型的存储需求和计算负担。量化是一种有效的方法,通过将权重和激活映射到低比特表示来实现。
BBuf
2024-05-13
2980
单节点8xA800跑起来HuggingFace DeepSeek V2踩坑
尝试跑起来HuggingFace上release的DeepSeek V2,踩了几个坑,这里给出解决的方法。HuggingFace提供的开源DeepSeek V2 repo链接为:https://huggingface.co/deepseek-ai/DeepSeek-V2
BBuf
2024-05-13
1990
在GPU上加速RWKV6模型的Linear Attention计算
本文主要讲一些看到的RWKV 6模型的Linear Attention模块推理加速方法,在这篇博客中暂不涉及对kernel的深入解析。首先,flash-linear-attention(https://github.com/sustcsonglin/flash-linear-attention )这个仓库旨在对各种线性Attention架构进行工程加速,例如RetNet,GLA,Manba,RWKV6(2024年4月引入)。它使用Triton来编写代码,并针对不同的线性Transformer架构使用不同的优化方式。例如对于RWKV 6就采用在时间维度进行kernel fuse的方式来加速。其次,RWKV-CUDA是RWKV系列模型迭代中针对Linear Attention模块的改进开发的自定义高性能cuda kernel(https://github.com/BlinkDL/RWKV-CUDA)。flash-rwkv(https://github.com/BBuf/flash-rwkv)仓库在RWKV-CUDA的最优性能算子的基础上进行了封装,提供了rwkv5_cuda_linear_attention和rwkv6_cuda_linear_attention两个接口方便在HuggingFace模型实现中直接加速推理的prefill阶段速度。
BBuf
2024-05-13
2590
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档