首页
学习
活动
专区
圈层
工具
发布

230亿参数只激活100亿,MiniMax做到了什么

MiniMax-M2.5的参数规模曝光:总参数230亿,活跃参数仅100亿。这个数字意味着什么?对于显卡资源有限的开发者来说,这可能是目前性价比最高的本地大模型选择。

MoE架构的精妙之处在于:每个token只调用100亿参数完成计算,但整个230亿参数库随时待命。你不能只加载100亿参数就跑起来,因为下一个token可能需要完全不同的专家组合。这是一种「按需调用」的智慧,而非简单的模型瘦身。

社区里有人做了个有趣的实验:用gzip压缩模型文件,竟然能减少30%的体积。从信息论角度看,这说明模型内部存在大量冗余。但冗余未必是坏事,就像传统神经网络中的冗余有时反而能提升性能。真正的挑战是:如何在保持推理效率的前提下利用这种压缩潜力?

实测数据相当可观。六张32GB的Mi50显卡跑Q4量化版本,短上下文能达到每秒15个token,150k上下文时降到4.5个token。对于追求无限本地推理的开发者而言,这个速度完全可以接受。有人在单张RX 7900 XTX上跑Q3量化版,也能稳定在每秒12个token。

关于REAP压缩技术,社区讨论颇为热烈。Cerebras团队已经将MiniMax 2.1压缩到139亿参数,质量损失极小。如果能对2.5版本做类似处理,压缩到160亿参数左右,再配合量化,最终可能只需要85到90GB就能跑起来。这对128GB内存的机器来说,意味着还有足够的空间处理长上下文和工具调用。

不过也有用户指出MiniMax系列的一个特点:对非常具体的指令响应不够精准。比如让它只回答「4」,它可能会先输出一大段推理过程。这在某些场景下是优势,在另一些场景下则显得啰嗦。

从GLM需要翻倍参数才能继续进化,到Kimi动辄万亿参数,MiniMax用230亿参数做到了接近Sonnet的水平。这不是参数军备竞赛的胜利,而是架构设计的胜利。

reddit.com/r/LocalLLaMA/comments/1r35d2x/minimaxai_minimaxm25_has_230b_parameters_and_10b

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OcGzpyefXMbB_aEnu7Z6wNmA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券