首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

揭秘腾讯Mistral-Pro模型:比肩Gemma,开启国产AI性能新篇章

总体性能与Gemma相当,腾讯ARC开源Mistral-Pro系列模型

腾讯ARC实验室震撼发布Mistral-Pro系列模型,现已在始智AI wisemodel.cn开源社区全面上线。该模型在Mistral-7B基础上创新升级,通过Decoder块扩展技术,显著提升了代码理解和数学推理性能,综合表现与谷歌最新Gemma模型旗鼓相当。

更令人瞩目的是,MetaMath-Mistral-Pro在Mistral-Pro的基石上针对数学领域进行了SFT微调,在权威数学评测集中展现出卓越的SOTA性能。

"探索腾讯ARC,领略尖端AI技术实力。汇聚全球智慧,驱动创新突破,赋能千行百业,成果丰硕:已成功助力腾讯业务优化,实现90%+问题解决率。洞见未来,尽在腾讯ARC。"

Mistral-Pro模型突破性升级,将Mistral架构由32层扩展至40层,维持原参数配置不变。独创的初始化技术使新增8层默认为恒等映射,确保前后输出无缝衔接。针对代码与数学领域,我们在Proof-Pile-2、the-stack-dedup、AutoMathText及CosmoPedia四大专业预训练数据集上深度优化,持续进行预训练,以期实现卓越性能提升。

图表揭示,Mistral-Pro对Mistral的数学与代码任务性能显著提升,在维持其全能表现的同时,整体性能媲美Gemma。此款实力模型即为基础版本——Mistral-Pro。

经过SFT深度优化,Mistral Pro以MetaMath为微调数据源,全面激活所有参数训练,不仅限于新添加层。最终,我们成功打造出MetaMath-Mistral-Pro,其性能在MetaMath系列模型中傲视群雄,树立了新的性能标杆。

"块扩展法,作为一种高效后预训练技术,巧妙地通过复制Transformer块对现有预训练语言模型进行扩容,新块的线性层以零初始化实现恒等映射。仅针对特定领域语料库微调新增部分,其余块保持冻结状态。优化后的扩展模型在通用任务及特定领域任务中均展现出卓越性能。"

块扩展技术聚焦于模型的后预训练阶段,针对代码、数学等特定领域语料库,以通用数据训练出的顶尖语言模型(例如llama)为基础进行定制扩展。通过独特地运用块扩展法增加LLM内部的块数量,使模型得以高效吸纳更多领域专业知识,仅对新添加的块进行微调,原块则保持冻结状态,确保模型维持其强大的通用理解力,实现精准与广度的完美结合。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O44xoIUY2iJYsicxBiVj5fLQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券