首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >支持100 万 token 上下文的大模型——MiniMax- M1

支持100 万 token 上下文的大模型——MiniMax- M1

作者头像
Ai学习的老章
发布2025-07-08 17:50:26
发布2025-07-08 17:50:26
24500
代码可运行
举报
运行总次数:0
代码可运行

再看一遍 Minimax-M1,本来拿着它与 DeepSeek-R1 对比使用的时候截了很多图,结果在桌面上不小心清掉了。。。

MiniMax- M1

MiniMax-M1 采用混合专家(MoE)架构,并结合了闪电注意力机制,基于之前的 MiniMax-Text-01 模型 开发(为了在 Text - 01 上进行完整的强化学习训练以创建 M1,使用了 512 块 H800 GPU,历时三周,这相当于 0.53 万美元的租赁成本。),总共包含 4560 亿个参数,每个 token 激活 459 亿个参数。M1 模型原生支持 100 万个 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。此外,MiniMax-M1 中的闪电注意力机制使测试时计算能够高效扩展——例如,与 DeepSeek R1 相比,在生成长度为 10 万个 token 时,M1 仅消耗 25% 的 FLOPs。这些特性使得 M1 特别适合需要处理长输入和广泛思考的复杂任务。

模型在复杂的软件工程、工具使用和长上下文任务上优于其他强大的开放权重模型,如原始的 DeepSeek-R1 和 Qwen3-235B。
模型在复杂的软件工程、工具使用和长上下文任务上优于其他强大的开放权重模型,如原始的 DeepSeek-R1 和 Qwen3-235B。

模型在复杂的软件工程、工具使用和长上下文任务上优于其他强大的开放权重模型,如原始的 DeepSeek-R1 和Qwen3-235B。

测评数据

MiniMax M1 80K 在人工分析智能指数上得分 63。这落后于 DeepSeek R1 0528,但略领先于阿里巴巴的 Qwen3 235B - A22B 和英伟达的 Llama 3.1 Nemotron Ultra。MiniMax M1 有两个版本:M1 40K 和 M1 80K,分别提供 40K 和 80K 的令牌思考预算。

人工分析智能指数包含 7 项评估:MMLU-Pro、GPQA 钻石级评估、人类终极考试、实时代码基准测试、科学代码评估、美国数学邀请赛、500 道数学题测试
人工分析智能指数包含 7 项评估:MMLU-Pro、GPQA 钻石级评估、人类终极考试、实时代码基准测试、科学代码评估、美国数学邀请赛、500 道数学题测试

人工分析智能指数包含 7 项评估:MMLU-Pro、GPQA 钻石级评估、人类终极考试、实时代码基准测试、科学代码评估、美国数学邀请赛、500 道数学题测试

MiniMax M1 80k 在全球开源权重模型中排名第二,也是目前唯一支持 100 万 token 上下文窗口的开源推理模型。虽然 Llama 4 系列支持 100 万/1000 万上下文,但 Meta 尚未发布任何 Llama 4 推理模型。

来源:https://artificialanalysis.ai/
来源:https://artificialanalysis.ai/

来源:https://artificialanalysis.ai/

由加州大学伯克利分校创建的 LMArena 上 ,Minimax 综合分数第 16 名。

图片
图片

它最擅长的是数学领域,No1,我个人最关注的是 coding,排名第 10

图片
图片

vLLM 本地部署

代码语言:javascript
代码运行次数:0
运行
复制
pip install modelscope
mkdir minimaxm1
cd minimaxm1
modelscope download MiniMax/MiniMax-M1-80k --local_dir .

# Launch MiniMax-M1 Service
export SAFETENSORS_FAST_GPU=1
export VLLM_USE_V1=0
vllm serve \
--model <model storage path> \
--tensor-parallel-size 8 \
--trust-remote-code \
--quantization experts_int8  \
--max_model_len 4096 \
--dtype bfloat16

80K 原版尺寸是 930GB 的样子,比 DeepSeek 还大 发现一个 int4 量化版,250GB 左右 

https://huggingface.co/justinjja/MiniMax-M1-80k-W4A16-INT4/tree/main

MiniMax 官方测试

开发小游戏

Prompt: 创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫,并逐步可视化 A * 算法解决它的过程。使用画布和动画。使其在视觉上具有吸引力。

,时长00:35

交互式应用

Prompt:构建一个打字速度测试网页应用。随机显示一句话,并以 WPM(每分钟字数)追踪用户的打字速度。通过颜色和准确率提供实时反馈。

,时长00:17

UI 组件聚焦

Prompt:创建一个带有基于画布的动画粒子背景的 HTML 页面。粒子应平滑移动并在靠近时连接。在画布上方添加一个居中的标题文本。 

,时长00:06

可视化

Prompt: 在用户点击页面任意位置时实现粒子爆炸效果。使用 canvas 和 JavaScript 来制作彩色粒子的渐隐动画效果。

,时长00:11

个人感受

我用相同的提示词复刻官方测试的例子,发现效果不如上面视频中演示的,可能我用的 API 对应的模型是量化了,在官网测试,效果好点。

但是

无论是官网还是调用 API,MiniMax的思考都极其漫长

我感觉

  • DeepSeek-R1 的思考只会把实现的大致思路搞清楚就开始写代码
  • MiniMax-M1 的思考把每一步骤的具体代码都在思考里进行了
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MiniMax- M1
  • 测评数据
  • vLLM 本地部署
  • MiniMax 官方测试
    • 开发小游戏
    • 交互式应用
    • UI 组件聚焦
    • 可视化
  • 个人感受
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档