首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >MiniMax M2.1 量化版来了

MiniMax M2.1 量化版来了

作者头像
Ai学习的老章
发布2026-01-05 11:42:25
发布2026-01-05 11:42:25
3660
举报

大家好,我是 Ai 学习的老章

MiniMax M2.1 大模型文件终于来了

我看官方部署文档,虽然模型文件只有 230GB,但是如果想要支撑更高上下文达到理想效果,所需显存还是蛮高的:模型权重 220GB+ 每百万 Tokons 上下文需要 240GB 显存。

以下为推荐配置,实际需求请根据业务场景调整:

  • 96G x4 GPU:支持 40 万 token 的总上下文。
  • 141G x8 GPU:支持长达 300 万 token 的总上下文。(官方文档原文写的 144GB,maybe 笔误)

部署脚本(需要 nightly 版本的 vllm):

代码语言:javascript
复制
uv venv
source .venv/bin/activate
uv pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly


SAFETENSORS_FAST_GPU=1 vllm serve \
    MiniMaxAI/MiniMax-M2.1 --trust-remote-code \
    --tensor-parallel-size 4 \
    --enable-auto-tool-choice --tool-call-parser minimax_m2 \
    --reasoning-parser minimax_m2_append_think

推荐几个主流且稳定的量化版吧,本地跑起来成本低很多

Unsloth

首先登场的是 大模型量化界翘楚:unsloth

从 1-bit 到 16-bit 都有,llama.cpp 运行,缺点是慢

https://huggingface.co/unsloth/MiniMax-M2.1-GGUF
https://huggingface.co/unsloth/MiniMax-M2.1-GGUF

https://huggingface.co/unsloth/MiniMax-M2.1-GGUF

QuantTrio/MiniMax-M2.1-AWQ

GPU 用户 强烈推荐这个,模型文件 125GB,可以 vLLM 启动,版本 0.13 即可

https://huggingface.co/QuantTrio/MiniMax-M2.1-AWQ
https://huggingface.co/QuantTrio/MiniMax-M2.1-AWQ

https://huggingface.co/QuantTrio/MiniMax-M2.1-AWQ

启动脚本:

代码语言:javascript
复制
export VLLM_USE_DEEP_GEMM=0
export VLLM_USE_FLASHINFER_MOE_FP16=1
export VLLM_USE_FLASHINFER_SAMPLER=0
export OMP_NUM_THREADS=4

vllm serve \
    __YOUR_PATH__/QuantTrio/MiniMax-M2.1-AWQ \
    --served-model-name MY_MODEL \
    --swap-space 16 \
    --max-num-seqs 32 \
    --max-model-len 32768  \
    --gpu-memory-utilization 0.9 \
    --tensor-parallel-size 8 \
    --enable-expert-parallel \ 
    --enable-auto-tool-choice \
    --tool-call-parser minimax_m2 \
    --reasoning-parser minimax_m2_append_think \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

mlx

土豪苹果用户必选自然是 MLX

https://huggingface.co/mlx-community/models?search=m2.1
https://huggingface.co/mlx-community/models?search=m2.1

https://huggingface.co/mlx-community/models?search=m2.1

比较受欢迎的 4bit 版本,文件 129GB

启动脚本:

代码语言:javascript
复制
#安装:pip install mlx-lm

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/MiniMax-M2.1-4bit")

prompt = "hello"

if tokenizer.chat_template is not None:
    messages = [{"role": "user", "content": prompt}]
    prompt = tokenizer.apply_chat_template(
        messages, add_generation_prompt=True
    )

response = generate(model, tokenizer, prompt=prompt, verbose=True)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Unsloth
  • QuantTrio/MiniMax-M2.1-AWQ
  • mlx
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档