首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >目前最大最好的MoE开源模型,腾讯开源了混元Hunyuan-large和3D模型

目前最大最好的MoE开源模型,腾讯开源了混元Hunyuan-large和3D模型

作者头像
技术人生黄勇
发布2024-11-07 10:19:46
发布2024-11-07 10:19:46
51200
代码可运行
举报
文章被收录于专栏:技术人生黄勇技术人生黄勇
运行总次数:0
代码可运行

混元大模型(Hunyuan-large)正式发布,可免费商用。基于MoE架构,拥有389B参数规模,支持256K的上下文。在多项评测中超越了LLama3.1。混元大模型采用了高质量合成数据增强训练、专家特定的规模定律等创新技术。

又一个重量级的国内玩家下场了开源的大模型的赛道。

腾讯开源了混元大模型Hunyuan-large,是腾讯自家AI产品:元宝阅读、AI 搜索等都在用的同款模型。根据大模型评测得分看,目前综合能力最强的开源MoE大语言模型。

MoE(Mixture of Experts,混合专家)结构因为能提高计算效率和模型规模,降低训练成本,提高模型性能,适应多模态数据,以及架构上的灵活性和扩展性成为大模型发展的重要方向之一。

01—模型特点

这次开源的是Base模型和Instruct模型: Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。‍‍

代码语言:javascript
代码运行次数:0
运行
复制
官方地址:https://llm.hunyuan.tencent.com

Github开源地址:https://github.com/Tencent/Tencent-Hunyuan-Large

技术报告:https://arxiv.org/pdf/2411.02265

Huggingface 模型库:https://huggingface.co/tencent/Tencent-Hunyuan-Large

特点:389B 的 MoE 模型,激活参数 52B,256K 上下文,7T 训练量。

  • 免费,可商用。‍‍‍‍‍
  • 评测指标比之前最好的LLama3.1都有所超越。‍‍
  • 代码评测的得分高出其他模型一截。

评测榜单得分表现‍‍‍‍

02—技术特点

技术报告里公布了模型技训练的技术细节:MoE 的 规模定律(Scaling Law) 有何特别之处,MoE 如何有效激活和训练每个专家的能力,合成数据的应用,如何对代码和数学能力提升超 10%。

  • 高质量合成数据:通过合成数据增强训练,Hunyuan-Large 能够学习到更丰富的表示,处理长上下文输入,并获得更好地泛化能力,有效应对自然数据的不足。
  • 专家特定的规模定律:为不同MoE专家设置不同的学习率,确保每个子模型都能有效地从数据中学习,并为整体性能做出贡献。
  • KV 缓存压缩:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了 KV 缓存的内存占用和计算开销,提高了推理吞吐能力。
  • 长上下文处理能力:预训练模型支持高达 256K 的文本序列,Instruct 模型支持 128K 的文本序列,显著提升了长上下文任务的处理能力。
  • 广泛的基准测试:在多种语言和任务上进行大量实验,验证了 Hunyuan-Large 的实际应用效果和安全性。

03—体验

想立刻体验混元大模型可以去下面地址:‍‍‍‍‍‍‍‍

https://huggingface.co/spaces/tencent/Hunyuan-Large

看看下面几个大模型经常翻车的问题,它回答得如何(来自好友“NLP工作站”的测试题)。‍‍‍

  • 将“I love Hunyuan-Large”的所有字母反过来写。 ‍
  • 9.9和9.11谁大? ‍
  • strawberry有几个r? ‍
  • 监狱里的都是犯人,为什么警察不去监狱里抓坏人? ‍
  • 生蚝煮熟了叫什么? ‍
  • 用水来兑水,得到的是浓水还是稀水?
  • 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹?
  • 小红(女)有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹? ‍
  • 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是?

如果想在程序里接入的大模型API的,腾讯云平台也贴心准备了100万的免费Token。

腾讯云关于大模型开通和介绍帮助:

https://cloud.tencent.com/document/product/1729/97730

接下来,还会有混元-M和混元-S会陆续开源,毕竟,许多场景使用小模型更具性价比。

腾讯还放出一个 3D 模型:混元 3D 1.0,这是业界首个同时支持文字、图像生成3D的开源大模型。

上传一张照片,生成 3D 模型,3D 打印出来,具备了无限的想象力。

现在感觉压力来到了其他开源大模型厂家一侧。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 技术人生黄勇 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档