首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

人工智能巨头开战!英伟达推出Nemotron-4 15B,超越LLaMA-2

8万亿训练数据,性能超LLaMA-2,英伟达推出Nemotron-4 15B

英伟达推出 Nemotron-4 15B,这是一个拥有150亿参数的先进大语言模型,得益于8万亿文本标注数据的预训练,具备强大理解和生成文本的能力。

Nemotron-4 15B 的性能超越同类开源模型,在测试中超越了 7 个领域中的 4 个,展现非凡的能力。它在其他领域也表现出色,证明了其多功能性和潜力。

Nemotron-4 15B架构

Nemotron-4 15B 采用革命性的 Transformer 架构,利用自注意力机制实现卓越的自然语言处理能力。

Transformer采用层叠式设计,每一层包含多头自注意力机制和前馈神经网络。自注意力机制捕捉序列中位置间的关联性,而前馈神经网络进行非线性变换,增强模型对输入序列的理解。

解码器:Nemotron-4 15B

Nemotron-4 15B 采用 Transformer 架构,其解码器仅使用部分 Transformer 层。解码器通过自注意力机制和前馈网络处理输入序列,将其转换为输出序列。

注意力机制赋能Nemotron-4 15B:

自注意力:揭示输入序列内部关联。

全局注意力:连接输入和输出序列。

多头注意力机制:Nemotron-4 15B中,每个注意力层包含多个独立的头部,每个头部针对特定信息特征进行训练。这增强了模型捕获复杂关系和深层语义理解的能力。

位置编码赋予序列中的每个位置位置信息。Nemotron-4 15B采用旋转位置编码技术,在处理输入序列时融入位置信息,增强了对序列内顺序关系的感知。

Nemotron-4 15B数据与训练流程

Nemotron-4 15B数据集包含:

* 英语自然语言:70%

* 多语言自然语言:15%

* 源代码:15%

为提高准确性,构建预训练语料库时,我们剔除了重复数据,并进行了严格过滤。这让我们的模型具备了更高的可靠性和鲁棒性。

凭借384个DGX H100节点,每个节点配备8个NVIDIA Hopper H100 GPU,Nemotron-4 15B的训练突破了界限。创新性的训练技术包括八路张量并行和大规模分布式优化器分片,确保了高效的模型训练。

Nemotron-4 15B 在英语评估中表现出色,超越 LLaMA-2 34B 和 Mistral 7B。其表现与 QWEN 14B 和 Gemma 7B 相近,展示了在自然语言处理方面的强大能力。

Nemotron-4 15B展现出卓越准确率,在资源受限的编程语言中超越竞争对手,包括Starcoder和Mistral 7B。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OtzFg7LNwDAHnfTGSAJhFsfw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券