AI Infra工程师

AI工程落地

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

Ray是一个高性能的分布式计算框架，在AI和大模型领域得到了广泛应用，OpenAI的训练底层框架就是Ray。Ray提供了统一的分布式计算抽象，可以像在本机上执行python函数或类的实例，而不用关注该函数或实例在哪些机器上执行。

分布式计算框架--Ray

vLLM从v0.6.0开始，为了解决功能碎片化、模块之间耦合严重、技术债等问题，并行开发了v1。v1不仅解决了上述问题，还提升了推理性能，让CPU调度开销更小。下图是v1的类图，展示了从用户输入到模型推理的过程。

vLLM源码学习

首先需要加载模型Llama 3 8b，并向vLLM表明我们将使用LoRA，同时还需要设置max_lora_rank。

vLLM多租户LoRA原理揭秘

输入三个prompt，token长度分别是：31、29、30，vllm会concat成一个长度为90个token的输入，一次跑完prefill。

vLLM中如何实现大模型推理加速技术？

代码仓库：https://github.com/UbiquitousLearning/mllm

大语言模型推理优化论文-EdgeMoE

这篇论文主要讨论了如何提高大型语言模型（LLMs）在推理时的计算效率。目前的LLMs在推理时往往采用固定的计算预算，导致对于简单问题过度思考，而对于复杂问题则不足思考。为了改善这种情况，作者提出了适应性和可控性两种策略，并对这两种策略进行了详细的介绍和比较。通过在多个数据集上进行测试，作者还探讨了这些策略之间的关键权衡，并指出了未来需要解决的关键挑战。总体来说，本文为提高LLMs的计算效率提供了有价值的参考。

大语言模型推理优化论文-Reasoning on a Budget

NVIDIA 正式发布了 Llama Nemotron 模型家族，这是一组专为推理与智能体任务优化的模型。它们基于开源的 Meta Llama 模型，结合深度蒸馏和强化训练，兼顾体积、准确率与推理性能。模型及参数规格见下表：

Nvidia Nemotron核心技术揭秘

混合专家相当于Transformer结构中的FFN，R1每一层网络有1个共享专家（shared expert）、256个路由专家（routed expert），每个token的推理会激活8个路由专家。

DeepSeek R1专家并行

DeepSeek R1和DeepSeek V3的模型结构一致，参数量也一致，R1是基于V3做强化学习得来的。R1主要的创新点都用在训练过程，推理过程和V3是一样的。

DeepSeek R1推理

用户请求通过HTTP或gRPC接口发送到triton server，triton根据支持的多种调度策略、批量算法，把请求路由到不同的框架后端（如Pytorch、ONNX等）。

Triton Inference Server调研

文生视频评测榜单：VBench Leaderboard - a Hugging Face Space by Vchitect

文生视频模型调研

PyTorch 2.3.1引入了torch.compile功能，允许用户将包含triton内核的PyTorch代码进行本地执行。

OpenAI Triton现状调研

单个 NVLink 数据包的范围从 1 到 18 个 flit。每个 flit 为 128 位，允许使用单个 header flit 和 16 个 payload flit 传输 256 字节，峰值效率为 94.12%，使用单个 header flit 和 4 个数据 payload flit 传输 64 字节，单向效率为 80%。在双向流量中，效率分别略微降低至 88.9% 和 66.7%。

Nvidia技术壁垒之一--NVLink&NVSwitch

模型地址：mistralai (Mistral AI_) (huggingface.co)，需要在这个网页上申请权限（地址填国外）

Mixtral混合专家模型

Llama3.1共开源了8B、70B、405B三种参数量的模型，三个模型具体信息如下图，其中405B除了BF16精度，还有FP8量化版模型，针对8B额外开源了经过内容安全分类微调的Llama-Guard-3-8B。

Llama3.1技术报告解读

由于注意力机制的二次复杂度，举例来说（如图1 a 所示），在单台装有 A100 的机器上为 LLaMA-3-8B 提供服务时，如果提示有 30 万个 token，模型需要 6 分钟才能完成预填充（ pre-filling）阶段，如果提示增加到 100 万个 token，这个数字将增加到 30 分钟。自注意力计算的开销占到了总预填充延迟的 90% 以上，这使其成为 LLM 处理长上下文时的主要瓶颈。

MInference：通过动态稀疏Attention加速长文本推理

结束符是一个句子（prompt）的结尾标记，再大语言模型中，句子中的每个单词都会被编码成数字才能被模型处理。同样的，结尾标记也会被编码成一个数字。再Meta给的源码中，Llama3的结束符是-1（pad_id=-1，参考llama3/llama/tokenizer.py at main · meta-llama/llama3 (github.com)）。transformers中现在是不支持pad_id=-1的，当同时给模型输入了多个句子（batch>1），我们就没法标记单个句子结束的地方。

大语言模型--Llama3 token结束符问题

衡量语言建模能力的重要指标，通过计算给定文本序列概率的倒数的几何平均，来衡量模型对于语言的建模能力。基础公式如下：

大语言模型--评价指标

论文地址：[2402.02750] KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache (arxiv.org)

大语言模型--KV Cache量化论文

词表大小从32000增加到128256，这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用

大语言模型--Llama3新特性

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了AI工程落地专栏，为你提供了AI工程落地的相关文章，致力于帮助开发者快速成长与发展。

AI工程落地

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐