Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >国产五大模型之一MiniMax 使用国内首个MOE架构

国产五大模型之一MiniMax 使用国内首个MOE架构

原创
作者头像
存内计算开发者
发布于 2024-05-21 07:26:12
发布于 2024-05-21 07:26:12
2.1K0
举报

阿里被曝2024年面向AIGC的第二次大手笔投资来了——加注大模型赛道独角兽Minimax,领投至少6亿美元

彭博社消息称,新一轮融资或将使MiniMax估值超25亿美元。目前阿里和红杉已承诺将参与本轮融资,其余跟投者还在洽谈中,相关条款可能会有所调整。除阿里外,腾讯、米哈游、IDG资本、高瓴都曾投资过。当前估值达25亿美元。

Minimax是谁?

MiniMax 成立于 2021 年 12 月,由商汤科技前副总裁闫俊杰创立。公司致力于开发先进的人工智能技术,特别是在大型语言模型(LLMs)领域。其技术核心是开发的 ABAB 大模型,这是一个基于 MoE(Mixture of Experts)架构的模型,旨在通过集成多个专家网络来提高模型的扩展性和效率。MoE 架构允许模型在处理复杂任务时拥有更大的参数量,同时保持较高的计算效率。MiniMax 的 ABAB6 模型是国内首个采用 MoE 架构的大语言模型,它在单位时间内能够训练更多的数据,显著提升了模型的性能和效率。MiniMax 提供多种基于其大模型的产品与服务,包括但不限于 MiniMax API 开放平台、海螺 AI 和星野等。这些产品服务于聊天对话、内容生成、语音合成、情感分析等多种场景,满足不同行业和应用的需求。MiniMax 不断推动其大模型技术的发展,例如,其 ABAB6 模型在处理复杂任务方面进行了显著改进,提供了更好的多模态理解和多语言支持。

Minimax使用的大语言模型架构是国内发布的首个MoE架构,全称专家混合(Mixture-of-Experts),是一种集成方法,其中整个问题被分为多个子任务,并将针对每个子任务训练一组专家。MoE 模型将覆盖不同学习者(专家)的不同输入数据。2024 年 4 月 17 日,MiniMax 正式推出abab 6.5 系列模型。abab 6.5 系列包含两个模型:abab 6.5 和 abab 6.5s。abab 6.5 包含万亿参数,支持 200k tokens 的上下文长度;abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据,但是更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近 3 万字的文本。在各类核心能力测试中,abab 6.5开始接近 GPT-4、 Claude-3、 Gemini-1.5 等世界上最领先的大语言模型。

核心能力测试

我们用业界标准的开源测试集来测试两个模型,在知识、推理、数学、编程、指令遵从等维度上和行业领先的语言模型进行了对比。

在 891 次测试中,abab 6.5 均能正确回答。

MoE架构 由于训练和部署大型模型造成的庞大开销,研究人员一直致力于探索使用混合专家(MoE)架构来提高大型模型的效率。这在大型模型中尤为明显,MoE通过选择性激活不同的网络组件,优化计算资源并提高性能。在这方面的开创性工作可以在GShard模型中看到[42],它为大规模多语种语言模型引入了MoE的使用,在翻译任务中展示了相当大的改进。Switch Transformers[22]进一步完善了这个概念,通过扩展MoE方法,在视觉理解上实现了前所未有的模型大小和训练效率。此外,BASE Layers[43]探索了将MoE集成到来自变换器的双向编码器表示中,进一步突显了MoE增强语言理解任务的潜力。MoE在生成模型中的应用也得到了探索,其中GLaM[44]是一个显著的例子,展示了MoE处理多样化和复杂生成任务的能力。在本文中,我们主要探索使用MoE架构构建统一的大型多模态模型。模型大小和性能可以在不增加计算需求的情况下得到增强。

图 2 展示了设计的 Uni-MoE 的示意图,展示了其全面的设计,包括用于音频、语音和视觉的编码器以及各自的模态连接器。这些连接器的作用是将各种模态输入转换为统一的语言空间。然后,我们在核心 LLM 块内集成了 MoE 架构,这对于提高训练和推理过程的效率至关重要,因为只激活部分参数。这是通过实施稀疏路由机制实现的,如图 2 底部所示。Uni-MoE 的整个训练过程被分为三个不同的阶段:跨模态对齐、训练模态特定专家和使用多样化的多模态指令数据集调整 Uni-MoE。在接下来的小节中,我们将详细探讨 Uni-MoE 的复杂架构和渐进式训练方法。

为了发挥不同专家的独特能力,提高多专家协作的效率,并增强整个框架的泛化能力,我们为Uni-MoE的逐步发展引入了一种渐进式训练策略。算法1概述了旨在实现集成基于MoE的MLLM架构的全面三阶段训练协议。在随后的陈述中,我们将详细说明每个训练阶段的目标和具体内容。

Uni-MoE训练过程

第一阶段:跨模态对齐。在初始阶段,我们的目标是建立不同模态和语言之间的连接。我们通过构建连接器来实现这一目标,这些连接器将各种模态数据转换为语言空间中的软标记。这里的主要目标是最小化生成熵损失。如图2的上半部分所示,LLM被优化以生成跨模态输入的描述,只有连接器接受训练。这种方法确保了所有模态在统一的语言框架内无缝集成,便于LLM相互理解。

第二阶段:训练模态特定专家。这一阶段集中于通过针对特定跨模态数据的专门训练来发展单模态专家。目标是提高每个专家在其各自领域内的熟练程度,从而提高MoE系统在多样化多模态数据上的整体性能。同时保持生成熵损失作为主要训练指标,我们定制FFN以更密切地与目标模态的特性对齐。

第三阶段:调整Uni-MoE。最后阶段涉及将第二阶段中调整过的专家权重集成到MoE层中。然后,我们继续使用混合多模态指令数据共同微调MLLM。训练进程的进展,如损失曲线所示,反映在图3中。比较MoE配置之间的分析显示,在第二阶段经过精炼的专家实现了更快的收敛,并在混合模态数据集上显示出更强的稳定性。此外,在涉及复杂混合模态数据的场景中,包括视频、音频、图像和文本,采用四个专家的模型显示出比两个专家的模型更低的损失变异性和更一致的训练性能。与使用辅助平衡损失相比,Uni-MoE显示出更好的收敛性,后者导致整体训练损失波动,并没有显示出明显的收敛。

本次训练通过集成混合专家【MoE】架构来扩展大型多模态模型的能力,通过新的三阶段的训练方式,专门用于提高uni-moe在多模态训练中的稳定性能和泛化性能,优于配备相同配置的传统MoE架构。

存内计算:

MoE模型是当前深度学习和人工智能研究的前沿领域之一,多模态大模型发展除了模型架构不断优化以提升模型处理能力以及效率,算力架构的优化对深度学习和人工智能的发展至关重要,存内计算架构真正做到存算融合,在存储单元内实现计算的模式相较于传统冯诺伊曼架构,减少了数据来回搬运,算力提升20X,尤其适应大规模的并行计算如深度学习。

知存科技凭借率先量产商用的领先技术实力,成为全球存内计算领域的佼佼者。知存科技成立于2017年,由研发出全球首颗支持多层神经网络存内计算芯片的郭昕婕博士担任首席科学家。2022年,知存科技WTM2101芯片正式推向市场,赋能百万级终端实现AI能力的提升和应用的推广,成为全球首颗大规模量产商用的存内计算芯片。

AI时代,存内计算超越摩尔,将成为人工智能时代的新型算力架构。

总结:

国产大模型齐头并进的当下,在单位时间内,提升模型的处理能力以及效率,同时降低算力成本,或成大模型竞争的核心,因此对模型架构优化以及算力架构更新提出更高要求。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每周AI论文速递(2506216-250620)
我们正式发布MiniMax-M1,这是全球首个开源权重的大规模混合注意力推理模型。该模型采用混合专家(Mixture-of-Experts, MoE)架构与闪电注意力机制相结合的创新设计。M1基于我们此前研发的MiniMax-Text-01模型构建,后者总参数量达4560亿,其中每个token激活45.9亿参数。该模型原生支持100万token的上下文窗口,是DeepSeek R1上下文长度的8倍。其闪电注意力机制能显著提升推理计算效率,使M1特别适合需要处理长序列输入和深度推理的复杂任务。训练方面,我们通过在包含沙盒环境和真实软件工程场景的多样化问题上进行大规模强化学习(RL)来训练模型。除架构本身的RL训练效率优势外,我们还提出了新型RL算法CISPO,该算法通过裁剪重要性采样权重(而非token更新)来提升训练效率,其性能优于其他主流RL算法变体。结合混合注意力架构与CISPO算法,MiniMax-M1在512块H800 GPU上仅用三周就完成了完整RL训练,计算成本仅为53.47万美元。我们发布了40K和80K两种thinking budget版本的模型,其中40K版本是80K训练过程的中间产物。基准测试表明,我们的模型性能与DeepSeek-R1、Qwen3-235B等顶尖开源模型相当甚至更优,尤其在复杂软件工程、工具调用和长上下文处理等任务中表现突出。模型已开源发布:https://github.com/MiniMax-AI/MiniMax-M1。
叶子的技术碎碎念
2025/06/23
990
每周AI论文速递(2506216-250620)
MiniMax发布MiniMax-M1推理模型,支持100万Token上下文,降低成本。
MiniMax是一家成立于2021年12月的中国人工智能科技公司,专注于多模态大模型研发,其核心团队由前商汤科技高管闫俊杰领衔。公司以创新的MoE(混合专家)架构和闪电注意力机制(Lightning Attention)技术著称,先后推出支持200K上下文长度的abab6.5模型和全球首个开源混合架构推理模型MiniMax-M125。
PoloaiAPI
2025/06/17
2670
MiniMax发布MiniMax-M1推理模型,支持100万Token上下文,降低成本。
MiniMax 悄咪咪上线的这款 AI 产品,好用到爆炸!
大模型太卷了!上周国外某款多模态大模型的出现,立刻掀起了 AI 领域对话式多模态交互的热潮。不管是文字、语音,还是图片,都能与你进行实时交互。随后,谷歌也推出了类似的 Astra。 
红色石头
2024/05/26
1.3K0
MiniMax 悄咪咪上线的这款 AI 产品,好用到爆炸!
对标 OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线
1 月 16 日,InfoQ 获悉,经过了半个月的部分客户的内测和反馈,MiniMax 全量发布大语言模型 abab6,该模型为国内首个 MoE(Mixture-of-Experts)大语言模型。
深度学习与Python
2024/01/17
1.1K0
对标 OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线
ByteDance| 将MoE 整合至多模态LLMs,降低了推理成本,多模态性能达到SOTA!
目前多模态LLMs主要通过增加文图对( text-image)数据和增强LLMs来提升性能,然而,此类方法计算成本较高,同时忽略了从视觉方面提升模型能力的重要性。
ShuYini
2024/05/11
1.1K0
ByteDance| 将MoE 整合至多模态LLMs,降低了推理成本,多模态性能达到SOTA!
MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评
继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后,上周,通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了万亿 MoE 模型 abab 6.5。根据 MiniMax 发布的技术报告,在各类核心能力测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。
机器之心
2024/04/26
1.1K0
吸引机器学习圈眼球的MoE,会成为 NLP 与 CV 的未来吗?
在过去的十几年里,受到算法设计、数据、算力三大关键因素的推动,深度学习取得了突破性进展,极大地变革了图像分类、机器翻译等领域。 然而在这个过程中,大模型以及数据集的使用是以大量计算需求为代价的。过往的一些研究表明,增强模型的泛化能力以及稳健性离不开大模型的支持,因此,在训练大模型的同时协调好与训练资源的限制非常重要。 一种可行的方法是利用条件计算,该方法不是为单个输入激活整个网络,而是根据不同的输入激活模型的不同部分。这一范式已经在谷歌提出的 Pathway(一种全新的 AI 解决思路,它可以克服现有系统
机器之心
2022/07/04
1.1K0
吸引机器学习圈眼球的MoE,会成为 NLP 与 CV 的未来吗?
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
近期,多模态大型语言模型(MLLMs)因其能够理解和生成受视觉输入影响的语言而受到了广泛关注。这些模型融合了视觉和文本数据,使得应用范围涵盖了图像字幕生成、视觉问答和视频分析等众多领域。尽管取得了进展,但许多MLLM在有效结合高分辨率和长时程视觉输入与复杂的语言理解方面,同时保持简洁和高效性方面仍面临挑战。
AIGC 先锋科技
2024/07/11
3300
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
首个线性注意力架构的大模型来了,MiniMax 400 万超长上下文大模型重磅开源!
最近一个月,大模型领域热闹非凡,各大科技公司纷纷加码。阿里推出了 QwQ 模型,OpenAI 发布了 o1 Pro,Google 带来了 Gemini-2.0-Flash-Exp,而 DeepSeek 则凭借 V3 模型成功出圈。然而,也有零一万物卖身阿里,令人唏嘘。但令人欣喜的是,又一家国内大模型公司 MiniMax(也就是视频生成领域广为熟知的海螺)加入了战局。他们开源了两个重量级模型:
AgenticAI
2025/03/18
4180
首个线性注意力架构的大模型来了,MiniMax 400 万超长上下文大模型重磅开源!
DeepSeek MoE:混合专家架构的创新与突破
在人工智能领域,尤其是大语言模型(LLM)的发展中,模型的性能和效率一直是研究的核心问题。随着模型规模的不断扩大,如何在有限的计算资源下实现更高的性能,成为了一个亟待解决的挑战。近年来,混合专家(Mixture of Experts,简称MoE)架构逐渐成为研究的热点。DeepSeek作为一家在人工智能领域崭露头角的公司,其推出的DeepSeek MoE架构引发了广泛关注。本文将深入探讨DeepSeek MoE架构的创新之处及其在性能和效率上的突破。
用户7353950
2025/02/05
7300
DeepSeek MoE:混合专家架构的创新与突破
大模型系列之解读MoE
Mixtral 8x7B 的推出, 使我们开始更多地关注 基于MoE 的大模型架构, 那么,什么是MoE呢?
半吊子全栈工匠
2024/05/07
1.7K0
大模型系列之解读MoE
深度求索开源国内首个 MoE 大模型 | DeepSeekMoE:在专家混合语言模型中实现终极专家专业化
在大语言模型时代,混合专家模型(MoE)是一种很有前途的架构,用于在扩展模型参数时管理计算成本。然而,传统的 MoE 架构(如 GShard)会激活 N 位专家中的 top-K 专家,但在确保专家专业化(即每位专家获取的知识不重叠且重点突出)方面面临挑战。作为回应,研究者提出了 DeepSeekMoE 架构,以实现终极的专家专业化。它涉及两个主要战略:
叶庭云
2024/05/25
2K0
深度求索开源国内首个 MoE 大模型 | DeepSeekMoE:在专家混合语言模型中实现终极专家专业化
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。
机器之心
2024/02/06
2660
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
Y-MoD:探索深度混合适应性,适用于多模式大语言模型 !
近年来,自然语言处理(NLP)领域大型语言模型(LLMs)取得了巨大成功,这吸引了越来越多的关注,以将其扩展到视觉语言(VL)任务。尽管取得了进步,但最近的多模态大型语言模型(MLLMs)往往受到其昂贵的计算成本的批评。例如,现有 MLLMs 的推理速度仍远低于实际需求,例如每秒4.7个样本。受NLP进步的推动,最近的技术进步采用了混合专家(MoEs)来减少MLLMs的“激活参数”,从而在效率和性能之间实现了权衡。
AIGC 先锋科技
2024/11/06
1780
Y-MoD:探索深度混合适应性,适用于多模式大语言模型 !
专家模型不要专家并行!微软开源MoE新路径
GRIN作为MoE架构,总参数量约42B,推理时激活的参数为6.6B,打同级别(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3还要略胜一筹。
新智元
2025/02/14
1240
专家模型不要专家并行!微软开源MoE新路径
MiniMax:大模型,云上造!
去年6月,MiniMax自研文本大模型MiniMax-ABAB(“阿巴阿巴”)快速迭代到第二个版本,随着参数规模增长、海量数据涌入,彼时的计算资源捉襟见肘。
小腾资讯君
2023/07/20
1.7K0
MiniMax:大模型,云上造!
“AI 六小虎”首个 IPO 来了!大模型狂奔两年后,开源成“唯一出路”
智谱被曝启动上市备案,但六小虎胜者未定。“AI 六小虎”是过去两年国内大模型时代的一个标志,指的是当年最早完成 10 亿 + 美元融资,且均拥有自研千亿参数级大模型,在国际基准测试中与 GPT-4、Llama 等对标的大模型创业公司。
深度学习与Python
2025/04/16
1080
“AI 六小虎”首个 IPO 来了!大模型狂奔两年后,开源成“唯一出路”
生产力工具中的“六边形战士”:解密海螺AI“红海突围”的底气
到了2024年,人工智能的热度不减,但口口相传的“百模大战”并未上演。资本市场罕见地“降温”,不少大模型悄无声息地消失,有机会进入决赛圈的大模型创业者,仅剩下寥寥数家。
Alter聊科技
2024/05/27
4830
生产力工具中的“六边形战士”:解密海螺AI“红海突围”的底气
MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文
「2025 年,我们可能会看到第一批 AI Agent 加入劳动力大军,并对公司的生产力产生实质性的影响。」——OpenAI CEO Sam Altman
机器之心
2025/02/03
1970
MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
大多数人类知识,也都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验,以及与物理世界的交互所获得。
新智元
2024/06/27
2700
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
推荐阅读
每周AI论文速递(2506216-250620)
990
MiniMax发布MiniMax-M1推理模型,支持100万Token上下文,降低成本。
2670
MiniMax 悄咪咪上线的这款 AI 产品,好用到爆炸!
1.3K0
对标 OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线
1.1K0
ByteDance| 将MoE 整合至多模态LLMs,降低了推理成本,多模态性能达到SOTA!
1.1K0
MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评
1.1K0
吸引机器学习圈眼球的MoE,会成为 NLP 与 CV 的未来吗?
1.1K0
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
3300
首个线性注意力架构的大模型来了,MiniMax 400 万超长上下文大模型重磅开源!
4180
DeepSeek MoE:混合专家架构的创新与突破
7300
大模型系列之解读MoE
1.7K0
深度求索开源国内首个 MoE 大模型 | DeepSeekMoE:在专家混合语言模型中实现终极专家专业化
2K0
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
2660
Y-MoD:探索深度混合适应性,适用于多模式大语言模型 !
1780
专家模型不要专家并行!微软开源MoE新路径
1240
MiniMax:大模型,云上造!
1.7K0
“AI 六小虎”首个 IPO 来了!大模型狂奔两年后,开源成“唯一出路”
1080
生产力工具中的“六边形战士”:解密海螺AI“红海突围”的底气
4830
MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文
1970
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
2700
相关推荐
每周AI论文速递(2506216-250620)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档