始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区将努力打造成huggingface之外最活跃的中立开放的AI开源社区。“源享计划”即开源共享计划,自研的开源模型和数据集,以及基于开源成果衍生的开源模型和数据集等,欢迎发布到wisemodel.cn社区,方便大家更容易获取和使用。
腾讯ARC实验室最新开源的Mistral-Pro系列模型已经发布在始智AI wisemodel.cn开源社区。Mistral-Pro模型是在Mistral-7B模型的基础上,通过Decoder块扩展的方法,提升的Mistral的代码和数学性能,综合性能与谷歌最新开源的Gemma相当。MetaMath-Mistral-Pro继续基于Mistral-Pro模型进行数学领域的SFT微调,在数学相关的评测集上取得SOTA性能。
https://wisemodel.cn/organization/TencentARC(腾讯ARC主页)
模型效果
Mistral-Pro模型将Mistral从32层添加8层扩展到40层,保持原来32层的参数不变,对新增加的层进行训练。新增加的层通过特定的初始化方式初始为恒等层,即添加前后输出不变。然后在代码和数学数据集上进行继续预训练,训练的数据集包括Proof-Pile-2,the-stack-dedup,AutoMathText以及CosmoPedia,均是与代码、数学相关的预训练数据集。
预训练性能如上图所示,Mistral-Pro增强了Mistral的数学,代码相关benchmark的性能,同时保持了Mistral通用能力的性能,总体性能与Gemma相当。Mistral-Pro模型是Base模型。
继续对Mistral Pro进行了SFT,SFT使用的数据是MetaMath,这是一个关于数学的指令微调数据集。在SFT阶段,训练所有参数,并不只局限于新增加的层。训练得到的MetaMath-Mistral-Pro达到了MetaMath系列模型的最佳性能。
块扩展的方法块扩展的方法是一种简单而有效的后预训练方法,通过复制Transformer块来扩展现成的预训练语言模型,新添加的块,其线性层被初始化为零以启用恒等映射,仅使用特定领域的语料库进行进一步调整,而其余块则保持冻结。调整后,扩展的预训练模型在通用和特定领域任务上都表现出色。
块扩展方法集中在模型的后预训练阶段,针对特定领域的语料库,如代码、数学等语料库,使用通用语料库训练得到的语言模型(例如llama)作为基础进行扩展。然后,采用块扩展方法增加LLM中的块数量,以此增强模型容纳更多领域知识的能力,在此过程中,只微调新添加的块,同时冻结原始块,从而保留模型的通用能力。
关于块扩展的方法大家可以参考LLaMA Pro 的技术报告:
arxiv.org/abs/2401.02415
https://wisemodel.cn/models/TencentARC/Mistral-Pro-v0.1(模型地址)
https://wisemodel.cn/models/TencentARC/MetaMath-Mistral-Pro(模型地址)
加盟入伙
始智AI wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据个人意向可备注“求职”或“创业”);
同时我们有意建设一支wisemodel社区的志愿团队,负责社区的运营和技术支持等工作,涉及模型、算法、开发、运营等相关的工作,在此有机会跟行业和学界的大牛等学习接触的机会,欢迎感兴趣的同学和老师等加入志愿者团队(备注“志愿者”)。
系统升级
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将努力打造成“HuggingFace”之外最活跃的社区,汇聚主要AI开源模型和数据集等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
领取专属 10元无门槛券
私享最新 技术干货