https://ai.meta.com/blog/meta-llama-3/
https://llama.meta.com/llama3/
目前 Llama 3 提供 8B 和 70B 预训练和训练调整版本,特定条件下商业使用(月活不超7亿)。还有一个 400B 的模型在训练中。
在接下来的几个月里,Meta 将引入新的功能:
- 使Llama 3 具备多语言和多模式
- 更长的上下文窗口
- 更多的模型大小和增强的性能
- 继续提高核心LLM功能(如推理和编码)的整体性能
- 分享Llama 3的研究论文。
Llama 3 选择了相对标准的仅解码器 Transformer 架构。与 Llama 2 相比做了几个关键的改进。Llama 3 使用了一个具有 128K 标记的词汇表的标记器,可以更有效地对语言进行编码,从而大大提高了模型性能。为了提高 Llama 3 模型的推理效率,在 8B 和 70B 大小上都采用了分组查询注意力(GQA)。在 8,192 个令牌的序列上训练模型,使用掩码来确保自我注意力不会跨越文档边界。
开源社区又将迎来一轮爆发了 [悠闲]
领取专属 10元无门槛券
私享最新 技术干货