再看一遍 Minimax-M1,本来拿着它与 DeepSeek-R1 对比使用的时候截了很多图,结果在桌面上不小心清掉了。。。
MiniMax-M1 采用混合专家(MoE)架构,并结合了闪电注意力机制,基于之前的 MiniMax-Text-01 模型 开发(为了在 Text - 01 上进行完整的强化学习训练以创建 M1,使用了 512 块 H800 GPU,历时三周,这相当于 0.53 万美元的租赁成本。),总共包含 4560 亿个参数,每个 token 激活 459 亿个参数。M1 模型原生支持 100 万个 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。此外,MiniMax-M1 中的闪电注意力机制使测试时计算能够高效扩展——例如,与 DeepSeek R1 相比,在生成长度为 10 万个 token 时,M1 仅消耗 25% 的 FLOPs。这些特性使得 M1 特别适合需要处理长输入和广泛思考的复杂任务。
模型在复杂的软件工程、工具使用和长上下文任务上优于其他强大的开放权重模型,如原始的 DeepSeek-R1 和Qwen3-235B。
MiniMax M1 80K 在人工分析智能指数上得分 63。这落后于 DeepSeek R1 0528,但略领先于阿里巴巴的 Qwen3 235B - A22B 和英伟达的 Llama 3.1 Nemotron Ultra。MiniMax M1 有两个版本:M1 40K 和 M1 80K,分别提供 40K 和 80K 的令牌思考预算。
人工分析智能指数包含 7 项评估:MMLU-Pro、GPQA 钻石级评估、人类终极考试、实时代码基准测试、科学代码评估、美国数学邀请赛、500 道数学题测试
MiniMax M1 80k 在全球开源权重模型中排名第二,也是目前唯一支持 100 万 token 上下文窗口的开源推理模型。虽然 Llama 4 系列支持 100 万/1000 万上下文,但 Meta 尚未发布任何 Llama 4 推理模型。
来源:https://artificialanalysis.ai/
由加州大学伯克利分校创建的 LMArena 上 ,Minimax 综合分数第 16 名。
它最擅长的是数学领域,No1,我个人最关注的是 coding,排名第 10
pip install modelscope
mkdir minimaxm1
cd minimaxm1
modelscope download MiniMax/MiniMax-M1-80k --local_dir .
# Launch MiniMax-M1 Service
export SAFETENSORS_FAST_GPU=1
export VLLM_USE_V1=0
vllm serve \
--model <model storage path> \
--tensor-parallel-size 8 \
--trust-remote-code \
--quantization experts_int8 \
--max_model_len 4096 \
--dtype bfloat16
80K 原版尺寸是 930GB 的样子,比 DeepSeek 还大 发现一个 int4 量化版,250GB 左右
https://huggingface.co/justinjja/MiniMax-M1-80k-W4A16-INT4/tree/main
Prompt: 创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫,并逐步可视化 A * 算法解决它的过程。使用画布和动画。使其在视觉上具有吸引力。
,时长00:35
Prompt:构建一个打字速度测试网页应用。随机显示一句话,并以 WPM(每分钟字数)追踪用户的打字速度。通过颜色和准确率提供实时反馈。
,时长00:17
Prompt:创建一个带有基于画布的动画粒子背景的 HTML 页面。粒子应平滑移动并在靠近时连接。在画布上方添加一个居中的标题文本。
,时长00:06
Prompt: 在用户点击页面任意位置时实现粒子爆炸效果。使用 canvas 和 JavaScript 来制作彩色粒子的渐隐动画效果。
,时长00:11
我用相同的提示词复刻官方测试的例子,发现效果不如上面视频中演示的,可能我用的 API 对应的模型是量化了,在官网测试,效果好点。
但是
无论是官网还是调用 API,MiniMax的思考都极其漫长
我感觉