GiantPandaCV-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

GiantPandaCV

专栏成员

722

文章

1020239

阅读量

101

订阅数

CUDA-MODE 课程笔记第一课: 如何在 PyTorch 中 profile CUDA kernels

profile 笔记性能 pytorch cuda

一直想系统看一下某个课程系统和科学的学习下 CUDA ，感觉 CUDA-MODE 这个课程能满足我的需求。这个课程是几个 PyTorch 的 Core Dev 搞的，比较系统和专业。不过由于这个课程是 Youtube 上的英语课程，所以要学习和理解这个课程还是需要花不少时间的，我这里记录一下学习这个课程的每一课的笔记，希望可以通过这个笔记帮助对这个课程以及 CUDA 感兴趣的读者更快吸收这个课程的知识。这个课程相比于以前的纯教程更加关注的是我们可以利用 CUDA 做什么事情，而不是让读者陷入到 CUDA 专业术语的细节中，那会非常痛苦。伟大无需多言，感兴趣请阅读本文件夹下的各个课程的学习笔记。

2024-07-02

5070

Huggingface CEO：阿里Qwen-2成全球开源大模型排行榜第一，中国处于领导地位

架构框架模型性能开源

早上浏览朋友圈的时候注意到HuugingFace的CEO Celm官宣了一个新的LLM排行榜OpenLLM Leaderboard2，阿里的Qwen2-72b-Instruct版本成为这个新排行榜上的第一名。此前，在 OpenLLM Leaderboard1 上阿里的 Qwen2-72b-Instruct 开源之后就一直是第一。可以说，Qwen2目前算是真正的开源大模型国产之光了。

2024-07-01

3850

MLIR_对自定义IR Dialect编写bufferization pass

tensor 函数内存 auto func

最近在整理先前实习做的一些工作，主要是对AI compiler做基于mlir的重构，以下是之前写的compiler frontend的一个比较基础的pass，针对自定义的IR Dialect做bufferization。

2024-07-01

1490

如何使用“LoRa”的方式加载ONNX模型：StableDiffusion相关模型的C++推理

模型 LoRa c++data std

1.基于 onnxruntime，将 StableDiffusionInpaintPipeline、StableDiffusionControlNetImg2ImgPipeline(stablediffusion + controlnet + LoRa) C++工程化；

2024-07-01

4360

大模型KV Cache节省神器MLA学习笔记（包含推理时的矩阵吸收分析）

self 模型学习笔记压缩原理

这里提一下，我维护的几个记录个人学习笔记以及社区中其它大佬们的优秀博客链接的仓库都获得了不少star，感谢读者们的认可，我也会继续在开源社区多做贡献。github主页：https://github.com/BBuf ，欢迎来踩

2024-06-18

9360

60行代码加速20倍 NEON实现深度学习OD任务后处理绘框

数据深度学习存储测试函数

【前言】本文版权属于GiantPandaCV，未经允许，请勿转载！最近在学neon汇编加速，由于此前OD任务发现在检测后处理部分使用OpenCV较为占用资源且耗时，遂尝试使用NEON做后处理绘框，以达到加速并降低CPU资源消耗的目的。

2024-06-18

1440

vAttention：用于在没有Paged Attention的情况下Serving LLM

服务模型内存系统 LLM

paper链接：https://arxiv.org/pdf/2405.04437v1

2024-06-18

3320

GQA，MLA之外的另一种KV Cache压缩方式：动态内存压缩（DMC）

模型内存算法压缩缓存

在openreview上看到最近NV的一个KV Cache压缩工作：https://openreview.net/pdf?id=tDRYrAkOB7 ，感觉思路还是有一些意思的，所以这里就分享一下。

2024-06-18

2700

I-LLM：首次实现了LLM全整形量化，精度逼近浮点，超过Smooth/Omini/AffineQuant

模型性能 LLM 部署量化

来源丨https://zhuanlan.zhihu.com/p/701393483

2024-06-06

6740

硬件高效的线性注意力机制Gated Linear Attention论文阅读

硬件递归论文内存算法

上篇文章 flash-linear-attention中的Chunkwise并行算法的理解根据GLA Transformer Paper（https://arxiv.org/pdf/2312.06635 作者是这位大佬 @sonta）通过对Linear Attention的完全并行和RNN以及Chunkwise形式的介绍理解了Linear Attention的Chunkwise并行算法的原理。但是paper还没有读完，后续在paper里面提出了Gated Linear Attention Transformer，它正是基于Chunkwise Linear Attention的思想来做的，不过仍有很多的工程细节需要明了。这篇文章就来继续阅读一下paper剩下的部分，把握下GLA的计算流程以及PyTorch实现。下面对Paper的第三节和第四节进行理解，由于个人感觉Paper公式有点多，所以并没有对paper进行大量直接翻译，更多的是读了一些部分之后直接大白话一点写一下我对各个部分的理解和总结。这样可能会忽略一些细节，建议读者结合原Paper阅读。

2024-06-05

2610

原理&图解vLLM Automatic Prefix Cache(RadixAttention)首Token时延优化

缓存 prefix token 优化原理

来源丨https://zhuanlan.zhihu.com/p/693556044

2024-06-04

3.8K0

flash-linear-attention中的Chunkwise并行算法的理解

flash torch 递归函数算法

这里提一下，我维护的几三个记录个人学习笔记以及社区中其它大佬们的优秀博客链接的仓库都获得了不少star，感谢读者们的认可，我也会继续在开源社区多做贡献。github主页：https://github.com/BBuf ，欢迎来踩

2024-06-03

2040

大模型训练：Megatron-Core中的通信优化

core 模型数据通信优化

来源丨https://zhuanlan.zhihu.com/p/694877232

2024-06-03

8100

OverlapMamba 具备超强泛化能力的定位方法

数据网络系统函数模型

精准的定位是自动驾驶系统独立决策和安全运行的基石，也是SLAM中环路闭合检测和全局定位的核心。传统方法通常采用点云数据作为输入，和基于深度学习的激光雷达定位（LPR）技术。然而，新近提出的Mamba深度学习模型与状态空间模型（SSM）相结合，展现出处理长序列数据的巨大潜力。基于此，作者开发了OverlapMamba——一种创新的定位网络，它将输入的视距视图（RVs）转化为序列数据。该方法采用了一种新颖的随机重构方法来构建偏移状态空间模型，有效压缩了视觉数据的表示。在三个不同的公共数据集上进行评估，该方法能够有效地检测环路闭合，即便是在从不同方向重访先前的位置时也能保持稳定性。依赖于原始的视距视图输入，OverlapMamba在时间复杂度和处理速度上优于传统的激光雷达和多视图融合方法，展现了卓越的定位能力和实时处理效率。

2024-06-03

1980

[并行训练]Context Parallelism的原理与代码浅析

优化原理数据索引通信

来源丨https://zhuanlan.zhihu.com/p/698447429

2024-06-03

1.9K0

NEON做色域变化_ 用单核性能无限逼近八核并行OpenCV

性能 opencv 测试内存数据

最近开始接触neon汇编，觉得这个东西在一些应用场景上好用，遂做些记录，分享下自己做的一些工作。

2024-05-21

1450

flash-linear-attention的fused_recurrent_rwkv6 Triton实现精读

torch 函数 flash mask state

继续补在GPU上加速RWKV6模型的Linear Attention计算没有写完的内容，对flash-linear-attention库（https://github.com/sustcsonglin/flash-linear-attention）中的fused_recurrent_rwkv6和chunk_rwkv6的前向实现进行解析，也是对Triton写cuda kernel进行继续学习。这里先解读一下fused_recurrent_rwkv6的实现，chunk_rwkv6的实现后续随缘说。

2024-05-21

1240

AffineQuant: 大语言模型的仿射变换量化

效率性能优化量化模型

本文研究了大型语言模型（LLMs）在移动和边缘设备上的推理加速问题，这一问题在现实应用中具有重要意义。随着大型语言模型在多种任务中展现出卓越的性能，它们吸引了越来越多的关注。然而，这些模型通常需要庞大的计算资源，尤其是在训练和推理阶段。特别是在资源受限的移动和边缘设备上，模型的高效推理显得尤为重要。为此，研究者们寻求通过压缩技术，如量化，来减少模型的存储需求和计算负担。量化是一种有效的方法，通过将权重和激活映射到低比特表示来实现。

2024-05-13

2980

单节点8xA800跑起来HuggingFace DeepSeek V2踩坑

开源 max model 模型优化

尝试跑起来HuggingFace上release的DeepSeek V2，踩了几个坑，这里给出解决的方法。HuggingFace提供的开源DeepSeek V2 repo链接为：https://huggingface.co/deepseek-ai/DeepSeek-V2

2024-05-13

1990

在GPU上加速RWKV6模型的Linear Attention计算

state 模型线程优化 gpu

本文主要讲一些看到的RWKV 6模型的Linear Attention模块推理加速方法，在这篇博客中暂不涉及对kernel的深入解析。首先，flash-linear-attention（https://github.com/sustcsonglin/flash-linear-attention ）这个仓库旨在对各种线性Attention架构进行工程加速，例如RetNet，GLA，Manba，RWKV6（2024年4月引入）。它使用Triton来编写代码，并针对不同的线性Transformer架构使用不同的优化方式。例如对于RWKV 6就采用在时间维度进行kernel fuse的方式来加速。其次，RWKV-CUDA是RWKV系列模型迭代中针对Linear Attention模块的改进开发的自定义高性能cuda kernel（https://github.com/BlinkDL/RWKV-CUDA）。flash-rwkv（https://github.com/BBuf/flash-rwkv）仓库在RWKV-CUDA的最优性能算子的基础上进行了封装，提供了rwkv5_cuda_linear_attention和rwkv6_cuda_linear_attention两个接口方便在HuggingFace模型实现中直接加速推理的prefill阶段速度。

2024-05-13

2590

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态