腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
GiantPandaCV
专栏成员
举报
722
文章
1020239
阅读量
101
订阅数
订阅专栏
申请加入专栏
全部文章(722)
https(213)
网络安全(176)
编程算法(166)
神经网络(164)
深度学习(157)
人工智能(110)
模型(105)
机器学习(98)
图像识别(85)
github(67)
数据(63)
git(51)
pytorch(50)
开源(43)
python(36)
论文(33)
性能(33)
优化(32)
卷积神经网络(29)
图像处理(27)
批量计算(25)
kernel(25)
腾讯云测试服务(23)
函数(23)
存储(22)
网络(21)
ide(20)
c++(17)
数据结构(17)
翻译(17)
工作(17)
算法(17)
opencv(15)
数据分析(14)
框架(14)
css(13)
node.js(12)
内存(12)
人脸识别(11)
api(11)
linux(11)
block(11)
架构(11)
打包(10)
部署(10)
测试(10)
对象(10)
量化(10)
笔记(9)
编译(9)
单片机(8)
编码(8)
教程(8)
html(7)
文件存储(7)
分布式(7)
缓存(7)
监督学习(7)
cuda(7)
设计(7)
压缩(7)
LLM(7)
tcp/ip(6)
openai(6)
self(6)
tensor(6)
视频(6)
系统(6)
对象存储(5)
自动驾驶(5)
c#(5)
网站(5)
http(5)
ssh(5)
迁移(5)
channel(5)
lm(5)
models(5)
token(5)
tensorflow(4)
.net(4)
android(4)
mapreduce(4)
渲染(4)
决策树(4)
windows(4)
bit(4)
image(4)
model(4)
text(4)
编译器(4)
后端(4)
脚本(4)
内核(4)
通信(4)
线程(4)
图像分割(4)
NLP 服务(3)
arm(3)
容器镜像服务(3)
容器(3)
chatgpt(3)
epoch(3)
gpu(3)
mask(3)
max(3)
size(3)
state(3)
time(3)
torch(3)
变量(3)
接口(3)
连接(3)
入门(3)
索引(3)
效率(3)
学习笔记(3)
原理(3)
javascript(2)
日志服务(2)
企业(2)
html5(2)
无人驾驶(2)
面向对象编程(2)
keras(2)
二叉树(2)
flash(2)
markdown(2)
迁移学习(2)
fpga(2)
ghost(2)
学习方法(2)
智能推荐平台(2)
auto(2)
chat(2)
data(2)
embedding(2)
free(2)
input(2)
int(2)
key(2)
layer(2)
map(2)
nas(2)
normalization(2)
object(2)
patch(2)
profiler(2)
random(2)
rgb(2)
row(2)
scale(2)
set(2)
程序(2)
递归(2)
地图(2)
服务(2)
高性能(2)
工具(2)
基础(2)
集合(2)
解决方案(2)
进程(2)
开发者(2)
腾讯(2)
统计(2)
硬件(2)
语法(2)
源码(2)
重构(2)
负载均衡(1)
java(1)
bash(1)
jquery(1)
opengl(1)
汇编语言(1)
flask(1)
apache(1)
nginx(1)
bash 指令(1)
黑石物理服务器(1)
访问管理(1)
命令行工具(1)
SSL 证书(1)
高性能计算(1)
vr 视频解决方案(1)
出行(1)
serverless(1)
shell(1)
强化学习(1)
rpc(1)
无监督学习(1)
anaconda(1)
大数据(1)
数据处理(1)
腾讯云开发者社区(1)
网站渗透测试(1)
聚类算法(1)
分类算法(1)
汽车(1)
小程序·云开发(1)
alpha(1)
architecture(1)
backbone(1)
bi(1)
branch(1)
class(1)
core(1)
cpu(1)
crop(1)
cube(1)
dataset(1)
detection(1)
dsl(1)
encoding(1)
export(1)
file(1)
fold(1)
func(1)
gan(1)
google(1)
gpt(1)
gradient(1)
im(1)
kaggle(1)
label(1)
lambda(1)
leetcode(1)
llvm(1)
load(1)
local(1)
location(1)
mac(1)
mapping(1)
matrix(1)
mean(1)
memory(1)
meta(1)
mutable(1)
offset(1)
outlook(1)
output(1)
pdf(1)
position(1)
post(1)
prefix(1)
profile(1)
reshape(1)
rotation(1)
sap(1)
scaling(1)
schedule(1)
scope(1)
search(1)
sequence(1)
shared(1)
spatial(1)
sse(1)
std(1)
stream(1)
streaming(1)
sum(1)
table(1)
tail(1)
thread(1)
transform(1)
vector(1)
worker(1)
zero(1)
编程(1)
插件(1)
读书笔记(1)
多线程(1)
互联网(1)
开发(1)
流媒体(1)
排序(1)
排序算法(1)
配置(1)
日志(1)
事件(1)
手机(1)
数据存储(1)
异常(1)
原型(1)
字符串(1)
LoRa(1)
搜索文章
搜索
搜索
关闭
CUDA-MODE 课程笔记 第一课: 如何在 PyTorch 中 profile CUDA kernels
profile
笔记
性能
pytorch
cuda
一直想系统看一下某个课程系统和科学的学习下 CUDA ,感觉 CUDA-MODE 这个课程能满足我的需求。这个课程是几个 PyTorch 的 Core Dev 搞的,比较系统和专业。不过由于这个课程是 Youtube 上的英语课程,所以要学习和理解这个课程还是需要花不少时间的,我这里记录一下学习这个课程的每一课的笔记,希望可以通过这个笔记帮助对这个课程以及 CUDA 感兴趣的读者更快吸收这个课程的知识。这个课程相比于以前的纯教程更加关注的是我们可以利用 CUDA 做什么事情,而不是让读者陷入到 CUDA 专业术语的细节中,那会非常痛苦。伟大无需多言,感兴趣请阅读本文件夹下的各个课程的学习笔记。
BBuf
2024-07-02
507
0
Huggingface CEO:阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位
架构
框架
模型
性能
开源
早上浏览朋友圈的时候注意到HuugingFace的CEO Celm官宣了一个新的LLM排行榜OpenLLM Leaderboard2,阿里的Qwen2-72b-Instruct版本成为这个新排行榜上的第一名。此前,在 OpenLLM Leaderboard1 上阿里的 Qwen2-72b-Instruct 开源之后就一直是第一。可以说,Qwen2目前算是真正的开源大模型国产之光了。
BBuf
2024-07-01
385
0
MLIR_对自定义IR Dialect编写bufferization pass
tensor
函数
内存
auto
func
最近在整理先前实习做的一些工作,主要是对AI compiler做基于mlir的重构,以下是之前写的compiler frontend的一个比较基础的pass,针对自定义的IR Dialect做bufferization。
BBuf
2024-07-01
149
0
如何使用“LoRa”的方式加载ONNX模型:StableDiffusion相关模型 的C++推理
模型
LoRa
c++
data
std
1.基于 onnxruntime,将 StableDiffusionInpaintPipeline、StableDiffusionControlNetImg2ImgPipeline(stablediffusion + controlnet + LoRa) C++工程化;
BBuf
2024-07-01
436
0
大模型KV Cache节省神器MLA学习笔记(包含推理时的矩阵吸收分析)
self
模型
学习笔记
压缩
原理
这里提一下,我维护的几个记录个人学习笔记以及社区中其它大佬们的优秀博客链接的仓库都获得了不少star,感谢读者们的认可,我也会继续在开源社区多做贡献。github主页:https://github.com/BBuf ,欢迎来踩
BBuf
2024-06-18
936
0
60行代码加速20倍 NEON实现深度学习OD任务后处理绘框
数据
深度学习
存储
测试
函数
【前言】 本文版权属于GiantPandaCV,未经允许,请勿转载!最近在学neon汇编加速,由于此前OD任务发现在检测后处理部分使用OpenCV较为占用资源且耗时,遂尝试使用NEON做后处理绘框,以达到加速并降低CPU资源消耗的目的。
BBuf
2024-06-18
144
0
vAttention:用于在没有Paged Attention的情况下Serving LLM
服务
模型
内存
系统
LLM
paper链接:https://arxiv.org/pdf/2405.04437v1
BBuf
2024-06-18
332
0
GQA,MLA之外的另一种KV Cache压缩方式:动态内存压缩(DMC)
模型
内存
算法
压缩
缓存
在openreview上看到最近NV的一个KV Cache压缩工作:https://openreview.net/pdf?id=tDRYrAkOB7 ,感觉思路还是有一些意思的,所以这里就分享一下。
BBuf
2024-06-18
270
0
I-LLM:首次实现了LLM全整形量化,精度逼近浮点,超过Smooth/Omini/AffineQuant
模型
性能
LLM
部署
量化
来源丨https://zhuanlan.zhihu.com/p/701393483
BBuf
2024-06-06
674
0
硬件高效的线性注意力机制Gated Linear Attention论文阅读
硬件
递归
论文
内存
算法
上篇文章 flash-linear-attention中的Chunkwise并行算法的理解 根据GLA Transformer Paper(https://arxiv.org/pdf/2312.06635 作者是这位大佬 @sonta)通过对Linear Attention的完全并行和RNN以及Chunkwise形式的介绍理解了Linear Attention的Chunkwise并行算法的原理。但是paper还没有读完,后续在paper里面提出了Gated Linear Attention Transformer,它正是基于Chunkwise Linear Attention的思想来做的,不过仍有很多的工程细节需要明了。这篇文章就来继续阅读一下paper剩下的部分,把握下GLA的计算流程以及PyTorch实现。下面对Paper的第三节和第四节进行理解,由于个人感觉Paper公式有点多,所以并没有对paper进行大量直接翻译,更多的是读了一些部分之后直接大白话一点写一下我对各个部分的理解和总结。这样可能会忽略一些细节,建议读者结合原Paper阅读。
BBuf
2024-06-05
261
0
原理&图解vLLM Automatic Prefix Cache(RadixAttention)首Token时延优化
缓存
prefix
token
优化
原理
来源丨https://zhuanlan.zhihu.com/p/693556044
BBuf
2024-06-04
3.8K
0
flash-linear-attention中的Chunkwise并行算法的理解
flash
torch
递归
函数
算法
这里提一下,我维护的几三个记录个人学习笔记以及社区中其它大佬们的优秀博客链接的仓库都获得了不少star,感谢读者们的认可,我也会继续在开源社区多做贡献。github主页:https://github.com/BBuf ,欢迎来踩
BBuf
2024-06-03
204
0
大模型训练:Megatron-Core中的通信优化
core
模型
数据
通信
优化
来源丨https://zhuanlan.zhihu.com/p/694877232
BBuf
2024-06-03
810
0
OverlapMamba 具备超强泛化能力的定位方法
数据
网络
系统
函数
模型
精准的定位是自动驾驶系统独立决策和安全运行的基石,也是SLAM中环路闭合检测和全局定位的核心。传统方法通常采用点云数据作为输入,和基于深度学习的激光雷达定位(LPR)技术。然而,新近提出的Mamba深度学习模型与状态空间模型(SSM)相结合,展现出处理长序列数据的巨大潜力。基于此,作者开发了OverlapMamba——一种创新的定位网络,它将输入的视距视图(RVs)转化为序列数据。该方法采用了一种新颖的随机重构方法来构建偏移状态空间模型,有效压缩了视觉数据的表示。在三个不同的公共数据集上进行评估,该方法能够有效地检测环路闭合,即便是在从不同方向重访先前的位置时也能保持稳定性。依赖于原始的视距视图输入,OverlapMamba在时间复杂度和处理速度上优于传统的激光雷达和多视图融合方法,展现了卓越的定位能力和实时处理效率。
BBuf
2024-06-03
198
0
[并行训练]Context Parallelism的原理与代码浅析
优化
原理
数据
索引
通信
来源丨https://zhuanlan.zhihu.com/p/698447429
BBuf
2024-06-03
1.9K
0
NEON做色域变化_ 用单核性能无限逼近八核并行OpenCV
性能
opencv
测试
内存
数据
最近开始接触neon汇编,觉得这个东西在一些应用场景上好用,遂做些记录,分享下自己做的一些工作。
BBuf
2024-05-21
145
0
flash-linear-attention的fused_recurrent_rwkv6 Triton实现精读
torch
函数
flash
mask
state
继续补 在GPU上加速RWKV6模型的Linear Attention计算 没有写完的内容,对flash-linear-attention库(https://github.com/sustcsonglin/flash-linear-attention)中的fused_recurrent_rwkv6和chunk_rwkv6的前向实现进行解析,也是对Triton写cuda kernel进行继续学习。这里先解读一下fused_recurrent_rwkv6的实现,chunk_rwkv6的实现后续随缘说。
BBuf
2024-05-21
124
0
AffineQuant: 大语言模型的仿射变换量化
效率
性能
优化
量化
模型
本文研究了大型语言模型(LLMs)在移动和边缘设备上的推理加速问题,这一问题在现实应用中具有重要意义。随着大型语言模型在多种任务中展现出卓越的性能,它们吸引了越来越多的关注。然而,这些模型通常需要庞大的计算资源,尤其是在训练和推理阶段。特别是在资源受限的移动和边缘设备上,模型的高效推理显得尤为重要。为此,研究者们寻求通过压缩技术,如量化,来减少模型的存储需求和计算负担。量化是一种有效的方法,通过将权重和激活映射到低比特表示来实现。
BBuf
2024-05-13
298
0
单节点8xA800跑起来HuggingFace DeepSeek V2踩坑
开源
max
model
模型
优化
尝试跑起来HuggingFace上release的DeepSeek V2,踩了几个坑,这里给出解决的方法。HuggingFace提供的开源DeepSeek V2 repo链接为:https://huggingface.co/deepseek-ai/DeepSeek-V2
BBuf
2024-05-13
199
0
在GPU上加速RWKV6模型的Linear Attention计算
state
模型
线程
优化
gpu
本文主要讲一些看到的RWKV 6模型的Linear Attention模块推理加速方法,在这篇博客中暂不涉及对kernel的深入解析。首先,flash-linear-attention(https://github.com/sustcsonglin/flash-linear-attention )这个仓库旨在对各种线性Attention架构进行工程加速,例如RetNet,GLA,Manba,RWKV6(2024年4月引入)。它使用Triton来编写代码,并针对不同的线性Transformer架构使用不同的优化方式。例如对于RWKV 6就采用在时间维度进行kernel fuse的方式来加速。其次,RWKV-CUDA是RWKV系列模型迭代中针对Linear Attention模块的改进开发的自定义高性能cuda kernel(https://github.com/BlinkDL/RWKV-CUDA)。flash-rwkv(https://github.com/BBuf/flash-rwkv)仓库在RWKV-CUDA的最优性能算子的基础上进行了封装,提供了rwkv5_cuda_linear_attention和rwkv6_cuda_linear_attention两个接口方便在HuggingFace模型实现中直接加速推理的prefill阶段速度。
BBuf
2024-05-13
259
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档