“ 混元大模型(Hunyuan-large)正式发布,可免费商用。基于MoE架构,拥有389B参数规模,支持256K的上下文。在多项评测中超越了LLama3.1。混元大模型采用了高质量合成数据增强训练、专家特定的规模定律等创新技术。”
又一个重量级的国内玩家下场了开源的大模型的赛道。
腾讯开源了混元大模型Hunyuan-large,是腾讯自家AI产品:元宝阅读、AI 搜索等都在用的同款模型。根据大模型评测得分看,目前综合能力最强的开源MoE大语言模型。
MoE(Mixture of Experts,混合专家)结构因为能提高计算效率和模型规模,降低训练成本,提高模型性能,适应多模态数据,以及架构上的灵活性和扩展性成为大模型发展的重要方向之一。
01—模型特点
这次开源的是Base模型和Instruct模型: Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。
官方地址:https://llm.hunyuan.tencent.com
Github开源地址:https://github.com/Tencent/Tencent-Hunyuan-Large
技术报告:https://arxiv.org/pdf/2411.02265
Huggingface 模型库:https://huggingface.co/tencent/Tencent-Hunyuan-Large
特点:389B 的 MoE 模型,激活参数 52B,256K 上下文,7T 训练量。
评测榜单得分表现
02—技术特点
技术报告里公布了模型技训练的技术细节:MoE 的 规模定律(Scaling Law) 有何特别之处,MoE 如何有效激活和训练每个专家的能力,合成数据的应用,如何对代码和数学能力提升超 10%。
03—体验
想立刻体验混元大模型可以去下面地址:
https://huggingface.co/spaces/tencent/Hunyuan-Large
看看下面几个大模型经常翻车的问题,它回答得如何(来自好友“NLP工作站”的测试题)。
如果想在程序里接入的大模型API的,腾讯云平台也贴心准备了100万的免费Token。
腾讯云关于大模型开通和介绍帮助:
https://cloud.tencent.com/document/product/1729/97730
接下来,还会有混元-M和混元-S会陆续开源,毕竟,许多场景使用小模型更具性价比。
腾讯还放出一个 3D 模型:混元 3D 1.0,这是业界首个同时支持文字、图像生成3D的开源大模型。
上传一张照片,生成 3D 模型,3D 打印出来,具备了无限的想象力。
现在感觉压力来到了其他开源大模型厂家一侧。