Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >transformers 4.51.2 更新详解:Llama4 兼容性增强,FBGemm 量化更稳定

transformers 4.51.2 更新详解:Llama4 兼容性增强,FBGemm 量化更稳定

作者头像
福大大架构师每日一题
发布于 2025-04-13 09:30:56
发布于 2025-04-13 09:30:56
10200
代码可运行
举报
运行总次数:0
代码可运行

🚀 transformers v4.51.2 发布:Llama4 关键修复与量化优化

HuggingFace 的 transformers 库近日发布了 v4.51.2 版本,虽然这只是一个较小的补丁更新,但依然包含了一些重要的 Bug 修复,尤其是针对 Llama4 模型的支持优化FBGemm 量化训练 的改进。

本次更新主要涉及 4 个关键修复,虽然没有直接影响模型输出,但对于 模型训练稳定性、量化推理效率 等方面都有所提升。接下来,我们将详细解析这些更新内容,并探讨它们对开发者的影响。


📌 本次更新的核心内容

1. 修复 Llama4 偏移问题

Llama4 是 Meta 最新推出的开源大模型,但在 transformers 的早期支持中,存在 token 偏移(offset)问题,可能导致 位置编码计算错误,影响模型的长文本生成能力。

本次更新修复了这一 Bug,确保 Llama4 在 transformers 中的 位置编码计算与原始实现一致,避免因偏移错误导致的生成质量下降。

🔹 影响范围

  • • 使用 Llama4 进行长文本生成 的开发者
  • • 依赖 精确位置编码 的任务(如代码生成、长文档摘要)

🔹 修复方式

  • • 调整了 LlamaModelforward 方法,确保 position_ids 正确传递

2. FBGemm 量化 + Tensor Parallel(TP)支持优化

大模型推理 中,量化(Quantization)张量并行(Tensor Parallelism, TP) 是两种常用的优化手段,可以大幅降低显存占用并提升推理速度。

然而,此前在使用 FBGemm(Facebook 的量化后端) 进行 8-bit 或 4-bit 量化 时,如果同时启用 TP 训练,可能会遇到 计算不一致梯度同步错误 的问题。

本次更新优化了 FBGemm 量化在 TP 模式下的稳定性,确保: ✅ 量化权重正确同步 ✅ 梯度计算与 FP16/FP32 模式一致 ✅ 减少因量化导致的精度损失

🔹 适用场景

  • • 使用 LLM 量化推理(如 LLaMA、GPT-NeoX)
  • • 在 多卡训练(TP) 环境下使用量化

3. 使用 rms_norm_eps 优化 Llama4 的 L2Norm(#37418)

Llama4 的 Layer Normalization 采用了 RMS Norm(Root Mean Square Normalization),而此前 transformers 的实现中,L2Norm 计算未严格对齐原版 Llama4,可能导致 训练稳定性问题

本次更新修复了这一问题,确保: 📌 RMS Norm 计算与 Meta 官方实现一致 📌 使用 rms_norm_eps 参数控制归一化的数值稳定性

🔹 影响范围

  • • 微调(Fine-tuning)Llama4 的开发者
  • • 使用 低精度训练(BF16/FP16) 时可能遇到的数值溢出问题

4. 标记 Llama4 不支持 Flash Attention 2

Flash Attention 2 是一种高效的注意力计算优化技术,可以 大幅提升 Transformer 模型的训练和推理速度。然而,由于 Llama4 的注意力机制实现特殊,当前版本的 transformers 暂不支持 Flash Attention 2

本次更新明确标记了 Llama4 不兼容 FA2,避免开发者错误启用导致计算错误。

🔹 临时解决方案

  • • 使用 标准注意力计算(稍慢但稳定)
  • • 等待后续版本对 Llama4 + FA2 的适配

💡 开发者应该如何升级?

1. 升级方式

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install transformers --upgrade

或指定版本:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install transformers==4.51.2

2. 兼容性说明

完全向后兼容,不影响已有模型 ✅ 主要修复 Llama4 和 FBGemm 量化 相关 Bug 🚨 如果使用 Flash Attention 2 + Llama4,需手动禁用 FA2


🔮 未来展望:Llama4 的进一步优化

本次更新虽然只是小版本迭代,但体现了 HuggingFace 团队对 Llama4 适配量化训练优化 的持续投入。未来可能会看到:

  • Flash Attention 2 对 Llama4 的官方支持
  • 更稳定的 4-bit 量化训练方案
  • 直接集成 Llama4 的 PEFT(参数高效微调)优化

📢 结论

Transformers v4.51.2 虽然是一个小版本更新,但针对 Llama4 的兼容性量化训练稳定性 做了重要修复,推荐所有使用 Llama4 或 FBGemm 量化 的开发者升级!


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
transformers v4.51.1正式发布!Llama 4多项关键修复,深度学习玩家速更!
引言: Hugging Face团队刚刚推出了Transformers库的v4.51.1版本!这次更新主要针对Llama 4的多个关键问题进行了修复,包括训练稳定性、注意力机制优化和量化支持等。如果你是Llama 4的用户,或者正在使用Flex Attention、DeepSpeed等高级功能,这次更新绝对不能错过!
福大大架构师每日一题
2025/04/10
1290
transformers v4.51.1正式发布!Llama 4多项关键修复,深度学习玩家速更!
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
2025年4月6日,HuggingFace 正式发布了 Transformers v4.51.0,本次更新堪称 AI 界的“超级大礼包”!不仅新增了 Meta 的 Llama 4、微软的 Phi4-Multimodal、深度求索的 DeepSeek-V3 以及 Qwen3 四大重量级模型,还优化了多项功能,修复了诸多 Bug,让 AI 开发者们直呼“真香”!
福大大架构师每日一题
2025/04/07
2900
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
AI智能体研发之路-模型篇(二):DeepSeek-V2-Chat 训练与推理实战
5月6日私募基金幻方发布DeepSeek-V2,千亿级模型,每百万Tokens仅需1元-2元。5月15日,字节发布白菜价的豆包大模型,5月21日阿里、百度相机大幅下调甚至免费开放自家商用模型接口,大模型价格战正式打响。而被誉为大模型价格屠夫的“DeepSeek-V2”到底是怎么个事儿,是否可以进行训练和推理,今天我们来展开讲一讲。
LDG_AGI
2024/08/13
1.5K0
AI智能体研发之路-模型篇(二):DeepSeek-V2-Chat 训练与推理实战
使用QLoRA对Llama 2进行微调的详细笔记
使用QLoRA对Llama 2进行微调是我们常用的一个方法,但是在微调时会遇到各种各样的问题,所以在本文中,将尝试以详细注释的方式给出一些常见问题的答案。这些问题是特定于代码的,大多数注释都是针对所涉及的开源库以及所使用的方法和类的问题。
deephub
2023/09/22
6.2K0
使用QLoRA对Llama 2进行微调的详细笔记
Meta Llama 4 全面解析:全新的原生多模态 AI
今天,Meta发布Llama 4系列模型,包括两款高效模型Llama 4 Scout、Llama 4 Maverick,以及即将的新教师模型——Llama 4 Behemoth。
AIGC新知
2025/04/07
9440
Meta Llama 4 全面解析:全新的原生多模态 AI
设计一套针对熟悉ChatGLM、Llama2、Qwen等大型语言模型及其微调技术
设计一套针对熟悉ChatGLM、Llama2、Qwen等大型语言模型及其微调技术(如Prompt Engineering、P-Tuning v2、LoRA)的面试题目,旨在评估应聘者对这些模型架构的理解、微调方法的掌握程度以及在实际应用中的问题解决能力。以下是一套综合性的面试题设计方案:
857技术社区
2024/05/30
5820
设计一套针对熟悉ChatGLM、Llama2、Qwen等大型语言模型及其微调技术
Meta无限长文本大模型来了:参数仅7B,已开源
Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训练效率和下游任务准确性方面表现不佳。
用户9861443
2024/04/19
1540
Meta无限长文本大模型来了:参数仅7B,已开源
Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动
众所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例,其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性,导致训练大模型存在着独特的系统性挑战。
机器之心
2024/05/14
2240
Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动
【LLM训练系列01】Qlora如何加载、训练、合并大模型
参考脚本:https://github.com/QwenLM/Qwen/blob/main/recipes/finetune/deepspeed/finetune_qlora_multi_gpu.ipynb
致Great
2024/11/23
2830
【LLM训练系列01】Qlora如何加载、训练、合并大模型
只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调
本文由GreenBit.AI团队撰写,团队的核心成员来自德国哈索·普拉特纳计算机系统工程院开源技术小组。我们致力于推动开源社区的发展,倡导可持续的机器学习理念。我们的目标是通过提供更具成本效益的解决方案,使人工智能技术在环境和社会层面产生积极影响。
机器之心
2024/06/04
3290
只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调
基于LMDeploy部署大模型和量化
大模型具有庞大的参数量,内存开销大,7B模型仅权重就需要14+G内存,采用自回归生成token,需要缓存Attention 的k/v带来巨大的内存开销;动态shape,请求参数不固定,Token逐个生成,且数量不定,因此在部署上都存在一些挑战。
阿提说说
2024/03/01
1.5K0
基于LMDeploy部署大模型和量化
Transformers v4.50.3重磅更新!DeepSeek-V3开源MoE模型正式入驻,性能对标GPT-4!
福大大架构师每日一题
2025/03/31
1010
Transformers v4.50.3重磅更新!DeepSeek-V3开源MoE模型正式入驻,性能对标GPT-4!
微调llama2模型教程:创建自己的Python代码生成器
本文将演示如何使用PEFT、QLoRa和Huggingface对新的lama-2进行微调,生成自己的代码生成器。所以本文将重点展示如何定制自己的llama2,进行快速训练,以完成特定任务。
deephub
2023/08/30
1.3K0
微调llama2模型教程:创建自己的Python代码生成器
Llama 4发布即开源 | 实测效果如何?
Meta 终于发布了一个原生多模态大模型 Llama4。而且一经发布,在大模型LMSYS排行榜上,Llama 4 Maverick冲上第二。仅仅比 Gemini-2.5-pro 模型少 22 分。
算法一只狗
2025/04/25
540
一文读懂开源 Llama 4 模型
Hello folks,我是 Luga,今天我们来聊一下人工智能领域的最新大模型技术进展 - 构建高效、灵活、以及开源的的大模型 - Llama 4 。
Luga Lee
2025/04/07
3710
一文读懂开源 Llama 4 模型
LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ)
模型的推理过程是一个复杂函数的计算过程,这个计算一般以矩阵乘法为主,也就是涉及到了并行计算。一般来说,单核CPU可以进行的计算种类更多,速度更快,但一般都是单条计算;而显卡能进行的都是基础的并行计算,做矩阵乘法再好不过。如果把所有的矩阵都加载到显卡上,就会导致显卡显存的占用大量增加,尤其是LLM模型大小从7b、14b、34b到几百b不等,占用显存的大小就是惊人的数字,如何在减少运算量和显存占用的条件下,做到推理效果不下降太多呢?在这里需要引入浮点数和定点数的概念。
汀丶人工智能
2024/05/26
2.1K0
LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ)
DeepSeek的MLA,任意大模型都能轻松迁移了
DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界,特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络(Multi-head Latent Attention, MLA)是其经济推理架构的核心之一,通过对键值缓存进行低秩压缩,显著降低推理成本 [1]。
机器之心
2025/03/07
1580
DeepSeek的MLA,任意大模型都能轻松迁移了
大模型面试百问百答
数据预处理->分块(这一步骤很关键,有时候也决定了模型的效果)->文本向量化->query向量化->向量检索->重排->query+检索内容输入LLM->输出
NewBeeNLP
2024/03/18
2.3K0
大模型面试百问百答
Llama深入浅出
前方干货预警:这可能是你能够找到的最容易懂的最具实操性的学习开源LLM模型源码的教程。
lyhue1991
2023/09/05
2.4K1
Llama深入浅出
加速大模型落地!使用4-bit训练Transformer,比FP16快2.2倍,提速35.1%
论文地址:https://arxiv.org/pdf/2306.11987.pdf
计算机视觉研究院
2023/08/24
1K0
加速大模型落地!使用4-bit训练Transformer,比FP16快2.2倍,提速35.1%
推荐阅读
相关推荐
transformers v4.51.1正式发布!Llama 4多项关键修复,深度学习玩家速更!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验