Llama3.1共开源了8B、70B、405B三种参数量的模型,三个模型具体信息如下图,其中405B除了BF16精度,还有FP8量化版模型,针对8B额外开源了经过内容安全分类微调的Llama-Guard-3-8B。
主要看点总结如下:
1. Llama3.1 405B依然使用decoder-only结构的transformer,没有使用混合专家。
2. 词表大小是128256,和Llama3一样。rope_theta是500000,和Llama3也一样。
3.最大生成上下文长度从Llama3的8192,增加到131072
4. 在语言模型后训练阶段(本文最后面有最新版的Llama训练思路),405B通过监督微调和直接偏好优化等,进一步提升了模型的性能和适应性。监督微调使用大量的人工标注数据来微调模型,使其能够更好地遵循人类的指令和偏好;直接偏好优化则通过学习人类的偏好来优化模型的输出,使其更加符合人类的期望。
5. 对于小参数量模型,Meta使用405B模型去提升小参数量模型的效果。
重要:纠正一下图里405B模型的Key/Value Heads数量是16
llama3.1模型效果再150多个数据集中进行了测试,同时也进行了人工测试。
实验表明,最大的405B模型与业界最好的闭源模型GPT-4, GPT-4o, and Claude 3.5 Sonnet性能不相上下。
小参数量8B和70B模型与参数量相当的闭源模型也有竞争力。
开源了推理系统(meta-llama/llama-agentic-system: Agentic components of the Llama Stack APIs (github.com)
),可以方便的再本地运行Llama,该系统由社区共建。
Llama3训练思路(更新至2024/07/23):
链接: https://pan.baidu.com/s/1XyWmeC4HIP-aY0vDjqbCUg?pwd=h792 提取码: h792
模型下载链接:meta-llama/Meta-Llama-3.1-405B · Hugging Face(名字、公司等信息填写国外的,审核大概需要1-2天)
此外也可以关注,https://github.com/LlamaFamily/Llama-Chinese,Llama3.1的百度云盘地址应该很快就有了。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。