MiniMax M3：MSA 稀疏注意力让 1M 上下文真正可用

2026 年 6 月 1 日，MiniMax 发布 M3——这不是一次常规的参数堆叠，而是一次注意力机制的结构性创新。M3 搭载全新 MSA（MiniMax Sparse Attention）稀疏注意力架构，将上下文窗口从 M2.7 的 200K 直接拉到 1M token，同时把百万 token 下的每 token 计算量压到上一代的 1/20。

长上下文的瓶颈从来不是"能不能装下"，而是"装下之后算不算得动"——M3 用 MSA 给出了第一个工程上成立的答案。

M3 已上线 MiniMax Code、Token Plan 和 API 平台，428B 权重同步开源至 HuggingFace 和 GitHub。

核心规格

维度	参数
总参数量	428B（MoE）
激活参数	22B
视觉编码器	600M
专家数量	128 个，每 token 激活 4 个
上下文窗口	1M token（512K 保底下限）
输入模态	文本、图像、视频（原生训练）
精度格式	BF16 / MXFP8
开源协议	开源权重可商用

M3 是国内第一个同时具备前沿 Coding 能力 + 1M 上下文 + 原生多模态的模型，也是目前唯一具备这三要素的开源模型。

MSA：让 1M 上下文真正算得动

问题：全注意力的平方级诅咒

M2.7 时代使用全注意力（Full Attention）——每个 token 都要和其他所有 token 计算注意力。这在 200K 以内尚可承受，但一旦冲向 1M，计算复杂度按平方级爆炸，长上下文变成"装得下但算不起"的奢侈品。

解法：MSA 块级稀疏注意力

M3 引入的 MSA（MiniMax Sparse Attention）遵循奥卡姆剃刀原则——只保留最本质的组件：

Index Branch（索引分支）：一个超轻量级头对全部 KV 块打分，为每个 GQA 组独立选出 Top-k 最相关的 KV 块
Main Branch（主分支）：仅对选中的块执行精确的块稀疏注意力
本地块始终保留：无论得分高低，当前局部上下文块永远参与计算

与 DSA、MoBA 等方案相比，MSA 能更精确地为 KV 分块，实现更高的有效上下文覆盖。

算子层协同优化

光有算法不够，M3 在算子层做了深度优化：

以 KV 块为外层聚合命中 query 的 KV outer gather Q
每块只读一次、访存连续
在 M3 的 head 配比下，计算访存比显著优于通行方法
比开源的 Flash-Sparse-Attention、flash-moba 快 4 倍以上

实测收益

指标	M3 vs M2.7（1M 上下文）
每 token 计算量	1/20
Prefill 加速	9 倍
Decoding 加速	15 倍
能力损失	多数对照实验中与全注意力打平

在 109B 参数的原生多模态模型上，MSA 在 1M 上下文下将每 token 注意力计算量降低 28.4 倍，配合协同设计的 kernel，在 H800 上实现 14.2× prefill、7.6× decoding 的 wall-clock 加速。

前沿 Coding 与 Agentic 能力

Coding 与 Agent 是 M3 的重点提升方向，在多个国际权威评测中达到领先水平：

基准	M3 得分	说明
SWE-Bench Pro	59.0%	超越 GPT-5.5、Gemini 3.1 Pro
Terminal Bench 2.1	66.0%	终端执行能力
SWE-fficiency	34.8%	工程效率
KernelBench Hard	28.8%	内核级编程
MCP Atlas	74.2%	工具链协作

SWE-Bench Pro 59.0% 是一个值得单独解读的数字——M2.7 是 56.2%，M3 提升到 59.0%，直接把 GPT-5.5 和 Gemini 3.1 Pro 甩在身后。

交互式用户模拟器：缩小 Benchmark 与真实体验的差距

当前大多数代码 Agent 的训练与评测都建立在单轮任务假设上。但真实开发场景并非如此——用户会在同一 Session 中持续协作：澄清需求、调整方案、交叉派发任务、根据中间结果多轮迭代。

M3 团队构建了交互式用户模拟器框架，模拟真实开发者的协作行为：

需求补充
方案讨论
反馈修正
连续任务切换
复杂项目迭代

这让 Agent 不再只是被动执行指令，而是能主动与用户协同完成任务。下一代 Agent Coding 比的不仅是代码生成，更是长期协作能力、规划能力与人机协同效率。

原生多模态：从 Step 0 开始

M3 是一个从训练第一步就进行多模态混合训练的模型。这种原生多模态路线让不同模态数据的语义空间更天然、更高度地融合。

关键工程决策：

大量实验显示 Interleaved data（交错数据） 相比合成类数据更容易 scale
M3 周期重构了整套文本预训练数据管线
产生大量 interleaved data 并用于训练
总训练规模约 100 万亿交错 token

实际任务：独立复现 ICLR 论文

M3 团队做了一个真正"前沿模型三要素"同时发挥的测试——把 1M 超长上下文、顶级编程/Agent 能力、原生多模态同时丢进一个长线程复杂任务。

任务：让 M3 独立复现 ICLR 2025 Outstanding Paper Award 获奖论文 Learning Dynamics of LLM Finetuning。

这篇论文研究大语言模型微调的学习动力学，复现需要：

完整理解论文方法（多模态输入：PDF + 图表）
长上下文保持论文细节不丢失
编程实现实验代码并调试
Agent 式地迭代优化实验结果

M3 完成了独立复现——这是第一次有开源模型在长上下文 + 编程 + 多模态三个维度同时发力，解决一个真实的科研复现任务。

部署与可用性

项目	说明
API 平台	platform.minimaxi.com
开源权重	HuggingFace
本地部署	SGLang / vLLM / TensorRT-LLM / Transformers
NVIDIA NIM	已上线 NVIDIA NIM Endpoint
硬件支持	NVIDIA Blackwell / H100 / H800
Token Plan	包月畅用，全模态共享
Agent 体验	agent.minimax.io

SGLang 部署示例（8 GPU 节点）

python -m sglang.launch_server \
    --model-path MiniMaxAI/MiniMax-M3 \
    --dtype bfloat16 \
    --tp-size 8 \
    --ep-size 8 \
    --trust-remote-code \
    --mem-fraction-static 0.8 \
    --enable-multimodal \
    --quantization mxfp8 \
    --attention-backend flashinfer \
    --mm-attention-backend flashinfer_cudnn \
    --moe-runner-backend deep_gemm \
    --chunked-prefill-size 8192 \
    --reasoning-parser minimax-m3 \
    --tool-call-parser minimax-m3-nom

行业影响

M3 的发布在三方面改变了行业认知：

1. 长上下文从"参数表数字"变成"工程现实"。 此前多家厂商标称百万上下文，但实际可用区间往往在 300K 以内。MSA 让 1M 上下文的每 token 计算量降到 1/20，这意味着长上下文不再是营销话术，而是可部署的生产能力。

2. 开源模型首次在 Coding 上反超闭源旗舰。 SWE-Bench Pro 59.0% 超越 GPT-5.5 和 Gemini 3.1 Pro——这不是学术基准上的微弱领先，而是真实 GitHub issue 修复任务上的实战超越。开源与闭源的差距在工程场景中急剧缩小。

3. 多模态从"后训练拼接"走向"原生融合"。 M3 从 Step 0 就进行多模态混合训练，配合 interleaved data 的 scale 路线，让多模态不再是"文本模型 + 视觉模块"的缝合产物。

M3 的意义不在于又一次跑分上涨，而在于它证明了稀疏注意力可以既简洁又高效——当 1M 上下文的计算成本降到 1/20，长上下文终于从"实验室能力"变成了"生产线能力"。

Previous Qwen3.7-Plus：多模态 Agent 模型，阿里把「看屏幕」做成了基准强项 Next Holo 3.1：消费级显卡跑 Computer Use Agent，法国 H Company 把「本地部署」做成了核心卖点