大家好,我是 Ai 学习的老章
我看官方部署文档,虽然模型文件只有 230GB,但是如果想要支撑更高上下文达到理想效果,所需显存还是蛮高的:模型权重 220GB+ 每百万 Tokons 上下文需要 240GB 显存。
以下为推荐配置,实际需求请根据业务场景调整:
部署脚本(需要 nightly 版本的 vllm):
uv venv
source .venv/bin/activate
uv pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly
SAFETENSORS_FAST_GPU=1 vllm serve \
MiniMaxAI/MiniMax-M2.1 --trust-remote-code \
--tensor-parallel-size 4 \
--enable-auto-tool-choice --tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2_append_think
推荐几个主流且稳定的量化版吧,本地跑起来成本低很多
首先登场的是 大模型量化界翘楚:unsloth
从 1-bit 到 16-bit 都有,llama.cpp 运行,缺点是慢

https://huggingface.co/unsloth/MiniMax-M2.1-GGUF
GPU 用户 强烈推荐这个,模型文件 125GB,可以 vLLM 启动,版本 0.13 即可

https://huggingface.co/QuantTrio/MiniMax-M2.1-AWQ
启动脚本:
export VLLM_USE_DEEP_GEMM=0
export VLLM_USE_FLASHINFER_MOE_FP16=1
export VLLM_USE_FLASHINFER_SAMPLER=0
export OMP_NUM_THREADS=4
vllm serve \
__YOUR_PATH__/QuantTrio/MiniMax-M2.1-AWQ \
--served-model-name MY_MODEL \
--swap-space 16 \
--max-num-seqs 32 \
--max-model-len 32768 \
--gpu-memory-utilization 0.9 \
--tensor-parallel-size 8 \
--enable-expert-parallel \
--enable-auto-tool-choice \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2_append_think \
--trust-remote-code \
--host 0.0.0.0 \
--port 8000
土豪苹果用户必选自然是 MLX

https://huggingface.co/mlx-community/models?search=m2.1
比较受欢迎的 4bit 版本,文件 129GB
启动脚本:
#安装:pip install mlx-lm
from mlx_lm import load, generate
model, tokenizer = load("mlx-community/MiniMax-M2.1-4bit")
prompt = "hello"
if tokenizer.chat_template is not None:
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
messages, add_generation_prompt=True
)
response = generate(model, tokenizer, prompt=prompt, verbose=True)