腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
AI工程落地
AI不止训练,专注工程落地
专栏成员
举报
16
文章
14258
阅读量
17
订阅数
订阅专栏
申请加入专栏
全部文章(16)
pytorch(12)
nvidia(7)
LLM(6)
huggingface-transformers(5)
机器学习(1)
go(1)
github(1)
神经网络(1)
深度学习(1)
批量计算(1)
人工智能(1)
dataset(1)
搜索文章
搜索
搜索
关闭
大语言模型--流水线并行原理及实现
pytorch
nvidia
LLM
Google 2019年发表的论文GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism,1811.06965 (arxiv.org)
aaronwjzhao
2024-05-11
225
0
置顶
大语言模型--评价指标
pytorch
huggingface-transformers
LLM
衡量语言建模能力的重要指标,通过计算给定文本序列概率的倒数的几何平均,来衡量模型对于语言的建模能力。基础公式如下:
aaronwjzhao
2024-06-11
173
0
大语言模型--KV Cache量化论文
pytorch
huggingface-transformers
LLM
1.提出了一种Past only quant,attention算子计算使用当前层未量化的kv和历史经过量化的kv
aaronwjzhao
2024-05-30
173
0
大语言模型--Llama3新特性
pytorch
huggingface-transformers
LLM
词表大小从32000增加到128256,这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用
aaronwjzhao
2024-05-29
151
0
大语言模型--张量并行原理及实现
huggingface-transformers
nvidia
LLM
pytorch
NCCL是一个Nvidia专门为多GPU之间提供通讯的通讯库,或者说是一个多GPU卡通讯的框架 ,提供了包括AllReduce、Broadcast、Reduce、AllGather、ReduceScatter等集合通讯API。NCCL屏蔽了底层复杂的细节,向上提供API供训练框架调用,向下连接机内机间的GPU以完成模型参数的高效传输。
aaronwjzhao
2024-01-11
1.2K
6
大语言模型--开源数据集
huggingface-transformers
LLM
dataset
Huggingface开源大模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4
aaronwjzhao
2023-12-22
584
0
TensorRT LLM--RMSNorm
pytorch
nvidia
aaronwjzhao
2023-11-22
160
0
TensorRT LLM vs OpenPPL LLM
pytorch
nvidia
PPL LLM只支持baichuan、chatglm、llama三个模型,Tensor-LLM支持几乎所有大模型。
aaronwjzhao
2023-11-21
754
0
TensorRT LLM--Beam Search
nvidia
pytorch
Beam Search思想介绍:如何通俗的理解beam search? - 知乎 (zhihu.com)
aaronwjzhao
2023-11-16
479
0
TensorRT LLM--Paged KV Cache
pytorch
nvidia
技术出处:vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention | vLLM Blog
aaronwjzhao
2023-11-16
1.2K
0
TensorRT LLM--In-Flight Batching
pytorch
nvidia
TensorRT LLM依赖于一个名为Batch Manager的组件来支持请求的即时批处理,该技术旨在减少队列中的等待时间,达到更高的GPU利用率。
aaronwjzhao
2023-11-16
1.1K
0
Mxnet模型性能优化
批量计算
导语:模型优化有很多方法,比如模型压缩、模型剪纸、转tensorrt等。本文讨论mxnet模型tesorrt优化,主要解决动态batch、Op不支持问题。
aaronwjzhao
2022-02-25
512
0
记一次排查模型推理变慢原因
pytorch
导语:使用nvidia dali库来做图片加载和transforms得到的tensor,比pillow+torchvision得到的tensor,在模型推理时候慢三倍。对比tensor,虽然存在精度上的损失,但没发现其他任何问题,最终定位出来是显存中tensor不连续。
aaronwjzhao
2022-02-25
2.2K
0
不重训模型情况下,MMDetection模型V1升级V2
机器学习
神经网络
深度学习
人工智能
github
导语:MMDetection是一个基于Pytorch实现的目标检测框架,支持Faster-RCNN、Mask-RCNN、Fast-RCNN等主流目标检测算法。旧版本的MMDetection会有很多限制,比如不能运行在新的cuda上、做模型优化也受到很多限制。MMDetection从v1到v2改变很大,从权重到模型申明语句都经历了翻天覆地的变化。本文讨论在不重新训练模型的情况下,把mmdet升级到2.x的办法。
aaronwjzhao
2022-02-25
696
0
Golang分布式限流开源实现
go
导语:流量上涨常常造成系统的不稳定,进而出现雪崩。本文讨论常见的限流算法,以及对比一些开源实现。
aaronwjzhao
2022-02-25
2.1K
0
Pytorch转TensorRT实践
pytorch
导语:TensorRT立项之初的名字叫做GPU Inference Engine(简称GIE),是NVIDIA 推出的一款基于CUDA和cudnn的神经网络推断加速引擎,TensorRT现已支持TensorFlow、Caffe、Mxnet、Pytorch等几乎所有的深度学习框架,将TensorRT和NVIDIA的GPU结合起来,能在几乎所有的框架中进行快速和高效的部署推理。
aaronwjzhao
2022-02-25
2.6K
1
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档