2026 年 6 月 1 日,MiniMax 发布 M3——这不是一次常规的参数堆叠,而是一次注意力机制的结构性创新。M3 搭载全新 MSA(MiniMax Sparse Attention)稀疏注意力架构,将上下文窗口从 M2.7 的 200K 直接拉到 1M token,同时把百万 token 下的每 token 计算量压到上一代的 1/20。
长上下文的瓶颈从来不是"能不能装下",而是"装下之后算不算得动"——M3 用 MSA 给出了第一个工程上成立的答案。
M3 已上线 MiniMax Code、Token Plan 和 API 平台,428B 权重同步开源至 HuggingFace 和 GitHub。
核心规格
| 维度 | 参数 |
|---|---|
| 总参数量 | 428B(MoE) |
| 激活参数 | 22B |
| 视觉编码器 | 600M |
| 专家数量 | 128 个,每 token 激活 4 个 |
| 上下文窗口 | 1M token(512K 保底下限) |
| 输入模态 | 文本、图像、视频(原生训练) |
| 精度格式 | BF16 / MXFP8 |
| 开源协议 | 开源权重可商用 |
M3 是国内第一个同时具备前沿 Coding 能力 + 1M 上下文 + 原生多模态的模型,也是目前唯一具备这三要素的开源模型。
MSA:让 1M 上下文真正算得动
问题:全注意力的平方级诅咒
M2.7 时代使用全注意力(Full Attention)——每个 token 都要和其他所有 token 计算注意力。这在 200K 以内尚可承受,但一旦冲向 1M,计算复杂度按平方级爆炸,长上下文变成"装得下但算不起"的奢侈品。
解法:MSA 块级稀疏注意力
M3 引入的 MSA(MiniMax Sparse Attention)遵循奥卡姆剃刀原则——只保留最本质的组件:
- Index Branch(索引分支):一个超轻量级头对全部 KV 块打分,为每个 GQA 组独立选出 Top-k 最相关的 KV 块
- Main Branch(主分支):仅对选中的块执行精确的块稀疏注意力
- 本地块始终保留:无论得分高低,当前局部上下文块永远参与计算
与 DSA、MoBA 等方案相比,MSA 能更精确地为 KV 分块,实现更高的有效上下文覆盖。
算子层协同优化
光有算法不够,M3 在算子层做了深度优化:
- 以 KV 块为外层聚合命中 query 的 KV outer gather Q
- 每块只读一次、访存连续
- 在 M3 的 head 配比下,计算访存比显著优于通行方法
- 比开源的 Flash-Sparse-Attention、flash-moba 快 4 倍以上
实测收益
| 指标 | M3 vs M2.7(1M 上下文) |
|---|---|
| 每 token 计算量 | 1/20 |
| Prefill 加速 | 9 倍 |
| Decoding 加速 | 15 倍 |
| 能力损失 | 多数对照实验中与全注意力打平 |
在 109B 参数的原生多模态模型上,MSA 在 1M 上下文下将每 token 注意力计算量降低 28.4 倍,配合协同设计的 kernel,在 H800 上实现 14.2× prefill、7.6× decoding 的 wall-clock 加速。
前沿 Coding 与 Agentic 能力
Coding 与 Agent 是 M3 的重点提升方向,在多个国际权威评测中达到领先水平:
| 基准 | M3 得分 | 说明 |
|---|---|---|
| SWE-Bench Pro | 59.0% | 超越 GPT-5.5、Gemini 3.1 Pro |
| Terminal Bench 2.1 | 66.0% | 终端执行能力 |
| SWE-fficiency | 34.8% | 工程效率 |
| KernelBench Hard | 28.8% | 内核级编程 |
| MCP Atlas | 74.2% | 工具链协作 |
SWE-Bench Pro 59.0% 是一个值得单独解读的数字——M2.7 是 56.2%,M3 提升到 59.0%,直接把 GPT-5.5 和 Gemini 3.1 Pro 甩在身后。
交互式用户模拟器:缩小 Benchmark 与真实体验的差距
当前大多数代码 Agent 的训练与评测都建立在单轮任务假设上。但真实开发场景并非如此——用户会在同一 Session 中持续协作:澄清需求、调整方案、交叉派发任务、根据中间结果多轮迭代。
M3 团队构建了交互式用户模拟器框架,模拟真实开发者的协作行为:
- 需求补充
- 方案讨论
- 反馈修正
- 连续任务切换
- 复杂项目迭代
这让 Agent 不再只是被动执行指令,而是能主动与用户协同完成任务。下一代 Agent Coding 比的不仅是代码生成,更是长期协作能力、规划能力与人机协同效率。
原生多模态:从 Step 0 开始
M3 是一个从训练第一步就进行多模态混合训练的模型。这种原生多模态路线让不同模态数据的语义空间更天然、更高度地融合。
关键工程决策:
- 大量实验显示 Interleaved data(交错数据) 相比合成类数据更容易 scale
- M3 周期重构了整套文本预训练数据管线
- 产生大量 interleaved data 并用于训练
- 总训练规模约 100 万亿交错 token
实际任务:独立复现 ICLR 论文
M3 团队做了一个真正"前沿模型三要素"同时发挥的测试——把 1M 超长上下文、顶级编程/Agent 能力、原生多模态同时丢进一个长线程复杂任务。
任务:让 M3 独立复现 ICLR 2025 Outstanding Paper Award 获奖论文 Learning Dynamics of LLM Finetuning。
这篇论文研究大语言模型微调的学习动力学,复现需要:
- 完整理解论文方法(多模态输入:PDF + 图表)
- 长上下文保持论文细节不丢失
- 编程实现实验代码并调试
- Agent 式地迭代优化实验结果
M3 完成了独立复现——这是第一次有开源模型在长上下文 + 编程 + 多模态三个维度同时发力,解决一个真实的科研复现任务。
部署与可用性
| 项目 | 说明 |
|---|---|
| API 平台 | platform.minimaxi.com |
| 开源权重 | HuggingFace |
| 本地部署 | SGLang / vLLM / TensorRT-LLM / Transformers |
| NVIDIA NIM | 已上线 NVIDIA NIM Endpoint |
| 硬件支持 | NVIDIA Blackwell / H100 / H800 |
| Token Plan | 包月畅用,全模态共享 |
| Agent 体验 | agent.minimax.io |
SGLang 部署示例(8 GPU 节点)
python -m sglang.launch_server \
--model-path MiniMaxAI/MiniMax-M3 \
--dtype bfloat16 \
--tp-size 8 \
--ep-size 8 \
--trust-remote-code \
--mem-fraction-static 0.8 \
--enable-multimodal \
--quantization mxfp8 \
--attention-backend flashinfer \
--mm-attention-backend flashinfer_cudnn \
--moe-runner-backend deep_gemm \
--chunked-prefill-size 8192 \
--reasoning-parser minimax-m3 \
--tool-call-parser minimax-m3-nom
行业影响
M3 的发布在三方面改变了行业认知:
1. 长上下文从"参数表数字"变成"工程现实"。 此前多家厂商标称百万上下文,但实际可用区间往往在 300K 以内。MSA 让 1M 上下文的每 token 计算量降到 1/20,这意味着长上下文不再是营销话术,而是可部署的生产能力。
2. 开源模型首次在 Coding 上反超闭源旗舰。 SWE-Bench Pro 59.0% 超越 GPT-5.5 和 Gemini 3.1 Pro——这不是学术基准上的微弱领先,而是真实 GitHub issue 修复任务上的实战超越。开源与闭源的差距在工程场景中急剧缩小。
3. 多模态从"后训练拼接"走向"原生融合"。 M3 从 Step 0 就进行多模态混合训练,配合 interleaved data 的 scale 路线,让多模态不再是"文本模型 + 视觉模块"的缝合产物。
M3 的意义不在于又一次跑分上涨,而在于它证明了稀疏注意力可以既简洁又高效——当 1M 上下文的计算成本降到 1/20,长上下文终于从"实验室能力"变成了"生产线能力"。