开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

Meta推出新款MobileLLM：1.5B参数展现强大性能，超越多款业界领先模型！

文章来源：企鹅号 - ITBear科技资讯

【ITBEAR】meta公司近日公开了他们的Smartphone-based Small Language Model（MobileLLM）家族的开源规划，这一举动引起了业界的广泛关注。为适应不同用户对模型效能的多样化需求，meta新增了参数分别为600M、1B和1.5B的三种模型版本。

据meta研究团队介绍，MobileLLM模型系列通过采用流线型的架构设计，并结合“SwiGLU激活函数”与“分组查询注意力”机制，从而在确保性能的同时，也优化了运行效率。这种双重优化的设计理念，让MobileLLM在性能和效率之间找到了一个平衡点。

实验数据显示，在配备32颗Nvidia A100 80G GPU的高性能服务器环境下，MobileLLM 1.5B版本模型仅需18天即可完成全部训练，而较小的125M版本更是只需3天。这样的训练速度，无疑大大提升了模型的开发与迭代效率。

在性能测试中，MobileLLM 125M和350M两款模型展现出了令人瞩目的实力。在零样本常识理解任务中，这两款模型相较于其他业界领先的模型如Cerebras、OPT、BLOOM等，准确率分别提升了2.7%和4.3%。

更当将MobileLLM-1.5B与其他参数规模更大的模型进行对比时，如GPT-neo-2.7B、OPT-2.7B、BLOOM-3B以及Qwen 1.5-1.8B，MobileLLM-1.5B在各项测试中均表现出领先性能，这充分证明了meta在小型化语言模型领域的深厚实力和创新能力。

发表于: 2024-11-082024-11-08 19:18:14
原文链接：https://page.om.qq.com/page/OxNlji9QvT1RzRAMhrir2Nrg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯