目前最大最好的MoE开源模型，腾讯开源了混元Hunyuan-large和3D模型

技术人生黄勇

发布于 2024-11-07 10:19:46

6300

文章被收录于专栏：技术人生黄勇技术人生黄勇

“ 混元大模型(Hunyuan-large)正式发布，可免费商用。基于MoE架构，拥有389B参数规模，支持256K的上下文。在多项评测中超越了LLama3.1。混元大模型采用了高质量合成数据增强训练、专家特定的规模定律等创新技术。”

又一个重量级的国内玩家下场了开源的大模型的赛道。

腾讯开源了混元大模型Hunyuan-large，是腾讯自家AI产品：元宝阅读、AI 搜索等都在用的同款模型。根据大模型评测得分看，目前综合能力最强的开源MoE大语言模型。

MoE（Mixture of Experts，混合专家）结构因为能提高计算效率和模型规模，降低训练成本，提高模型性能，适应多模态数据，以及架构上的灵活性和扩展性成为大模型发展的重要方向之一。

01—模型特点

这次开源的是Base模型和Instruct模型： Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。‍‍

官方地址：https://llm.hunyuan.tencent.com

Github开源地址：https://github.com/Tencent/Tencent-Hunyuan-Large

技术报告：https://arxiv.org/pdf/2411.02265

Huggingface 模型库：https://huggingface.co/tencent/Tencent-Hunyuan-Large

特点：389B 的 MoE 模型，激活参数 52B，256K 上下文，7T 训练量。

免费，可商用。‍‍‍‍‍
评测指标比之前最好的LLama3.1都有所超越。‍‍
代码评测的得分高出其他模型一截。

评测榜单得分表现‍‍‍‍

02—技术特点

技术报告里公布了模型技训练的技术细节：MoE 的规模定律（Scaling Law）有何特别之处，MoE 如何有效激活和训练每个专家的能力，合成数据的应用，如何对代码和数学能力提升超 10%。

高质量合成数据：通过合成数据增强训练，Hunyuan-Large 能够学习到更丰富的表示，处理长上下文输入，并获得更好地泛化能力，有效应对自然数据的不足。
专家特定的规模定律：为不同MoE专家设置不同的学习率，确保每个子模型都能有效地从数据中学习，并为整体性能做出贡献。
KV 缓存压缩：采用分组查询注意力（GQA）和跨层注意力（CLA）策略，显著减少了 KV 缓存的内存占用和计算开销，提高了推理吞吐能力。
长上下文处理能力：预训练模型支持高达 256K 的文本序列，Instruct 模型支持 128K 的文本序列，显著提升了长上下文任务的处理能力。
广泛的基准测试：在多种语言和任务上进行大量实验，验证了 Hunyuan-Large 的实际应用效果和安全性。

03—体验

想立刻体验混元大模型可以去下面地址：‍‍‍‍‍‍‍‍

https://huggingface.co/spaces/tencent/Hunyuan-Large

看看下面几个大模型经常翻车的问题，它回答得如何（来自好友“NLP工作站”的测试题）。‍‍‍

将“I love Hunyuan-Large”的所有字母反过来写。 ‍
9.9和9.11谁大？ ‍
strawberry有几个r？ ‍
监狱里的都是犯人，为什么警察不去监狱里抓坏人？ ‍
生蚝煮熟了叫什么？ ‍
用水来兑水，得到的是浓水还是稀水？
小红有2个兄弟，3个姐妹，那么小红的兄弟有几个姐妹？
小红（女）有2个兄弟，3个姐妹，那么小红的兄弟有几个姐妹？ ‍
未来的某天，李同学在实验室制作超导磁悬浮材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了磁悬浮材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为其原因是？

如果想在程序里接入的大模型API的，腾讯云平台也贴心准备了100万的免费Token。