英伟达新 nGPT 架构撬动 AI 未来：训练模型时间可缩短至 1/20

文章来源：企鹅号 - IT之家

IT之家 10 月 22 日消息，科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。

nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。

传统的变换器模型通常缺乏一致的几何框架，而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面，确保模型各层在训练过程中保持平衡。

这种几何结构有助于创造更稳定高效的学习过程：

减少训练步骤：nGPT 不再直接对模型权重应用权重衰减，而是依赖学习到的缩放参数，优化模型在训练中的调整方式。

简化过程：此方法消除了对 LayerNorm 或 RMSNorm 等归一化技术的需求，使训练过程更为简单和快速。

英伟达团队使用 OpenWebText 数据集进行测试，nGPT 在速度和效率上均优于传统的 GPT 模型。对于长达 4000 个 tokens 的文本输入，nGPT 所需的训练轮次远少于传统模型，显著缩短了训练时间。

nGPT 的一个关键优势是将归一化（normalization）和表示学习（representation learning）结合成一个统一框架，这种设计简化了模型架构，便于扩展和适应更复杂的混合系统。未来，nGPT 的方法可能被整合进其他类型的模型和架构，从而开发出更强大的 AI 系统。

IT之家附上参考地址

发表于: 2024-10-222024-10-22 10:01:31
原文链接：https://page.om.qq.com/page/OmClmAvyQv3VP0pYNuXZxhSw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

英伟达新 nGPT 架构撬动 AI 未来：训练模型时间可缩短至 1/20

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐