MiniMax M3：首个将前沿编码、百万上下文和原生多模态集于一体的开源模型

2026 年 6 月 1 日，MiniMax 正式发布了其旗舰模型 M3。这是一款开源权重模型，其最大的差异化在于：它同时将三个前沿能力集于一身——前端级编码与 Agent 能力、百万 token 超长上下文、以及原生的图文多模态理解。在开源模型领域，这是目前唯一一个做到三者合一的模型。

M3 的发布在开发者社区引起了大量讨论，核心原因很简单：在此之前，如果你需要超长上下文，你得选 Gemini；如果你需要顶尖编码能力，你得用 GPT-5.5 或 Claude；如果你需要多模态，你需要在不同模型之间来回切换。M3 用一个模型覆盖了所有这些场景，而且它的权重是开源的。

这篇文章从架构创新、编码与 Agent 表现、多模态能力、实战案例四个维度来拆解 M3。

MSA 稀疏注意力：超长上下文的关键

上下文窗口的扩展从来不是简单的"把注意力矩阵做得更大"。标准 Transformer 的注意力计算量随序列长度呈平方级增长——1M token 的序列如果用标准全注意力，计算量大约是 128K 的 64 倍，这在推理时完全不可行。

M3 的核心创新在于 **MSA（MiniMax Sparse Attention）**架构。它有别于此前的 DSA 或 MoBA 等稀疏注意力方案，采用了一种 KV 分块粒度更精细的机制。简单来说，MSA 将 KV 缓存划分为更细粒度的块，并通过"KV outer gather Q"的方式——每个块只被读取一次，内存访问是连续的——大幅提升了算力利用率。

官方公布的数据是：

在 1M token 场景下，每个 token 的计算量仅为传统注意力的 1/20
预填充（prefilling）速度提升 9×
解码速度提升 15× 以上
算力利用率（arithmetic intensity）比 Flash-Sparse-Attention 和 Flash-MoBA 快 4 倍以上

更重要的是，在各个能力维度的消融测试中，MSA 在绝大多数任务上达到了与全注意力几乎一致的效果。这意味着你获得的是"近似无损"的上下文压缩，而不是简单粗暴地丢弃信息。

—— 广告 ——

前沿编码与 Agent 能力

M3 在编码和 Agent 基准测试中的表现是它最受关注的部分。以下是官方公布的 Benchmark 数据：

基准测试	M3 得分	说明
SWE-Bench Pro	59.0%	真实 GitHub Issue 修复
Terminal-Bench 2.1	66.0%	终端任务完成
SWE-fficiency	34.8%	效率型编码
KernelBench Hard	28.8%	内核级编程
MCP Atlas	74.2%	MCP 工具使用

这些分数放在当前模型格局中意味着什么？以 SWE-Bench Pro 为例，59.0% 已经进入了前沿模型梯队，与 GPT-5.5、Claude Opus 4.7 等闭源模型处在同一竞争区间。

MiniMax 团队还搭建了一个交互式用户模拟器来弥补单轮 Benchmark 与真实多轮协作之间的鸿沟。该模拟器涵盖了需求阐述、方案讨论、反馈修正、任务切换和迭代开发等完整工作流。这种测试方式比传统的单轮代码生成更贴近实际开发场景。

原生多模态：从预训练就开始融合

M3 的另一个关键差异化是从预训练的第一步起就采用混合模态训练——不是先训文本模型再"拼接"视觉能力，而是在整个训练过程中让文本和图文数据自然融合。

这意味着 M3 对图像/视频输入的理解不是在"文本模型上修修补补"，而是在底层表征空间中就做到了文本和视觉的深度对齐。具体的说，M3 可以直接接受视频输入、处理桌面截图（computer use 场景），并从混合数据中学习跨模态的语义关联。

官方团队提到，这种"从零开始混合训练"的策略还有一个额外好处：图文交错数据（interleaved data）比纯合成数据的规模化扩展容易得多。

实战案例：M3 能做什么

官方公布的三个实战案例比任何 Benchmark 数字都更有说服力。

案例一：自主复现 ICLR 2025 论文

任务描述：自主复现 ICLR 2025 杰出论文《Learning Dynamics of LLM Finetuning》。M3 自主运行了约 12 小时，生成了 18 次 commit 和 23 张实验图表，成功匹配了 SFT 预测概率趋势、观察到了 DPO 的 squeezing 效应、验证了 Extend 缓解方法。

这个案例中，长上下文用于理解论文全文 + 代码 + 日志，多模态用于解析曲线和数据表格，编码能力则用于整个复现流程的自动化。

案例二：CUDA 内核优化

任务描述：优化 NVIDIA Hopper GPU 上的 FP8 GEMM 内核。M3 运行了约 24 小时，提交了 147 次基准测试，调用了 1,959 次工具。最终将 Hopper FP8 硬件峰值利用率从 7.6% 提升至 71.3%（9.4 倍加速）。

六轮标志性优化：基线实现 → 自动调优 → 瓶颈诊断 → CUDA Graph → persistent kernel → 主机端调度。最优方案出现在第 145 次提交，M3 继续探索穿过了多个性能平台区。

案例三：PostTrainBench——让 M3 训练模型

任务描述：给定 4 个预训练基座模型，在 12 小时内自主完成数据合成、模型训练、评估和迭代的全流程。目标是让基座模型获得 AIME2025、BFCL、GPQA、GSM8K、HumanEval 等多项能力。

M3 得分 0.37（Opus 4.7 为 0.42，GPT-5.5 为 0.39），虽然未达到闭源前沿的最高分，但已经超过了其他所有开源方案。

定价与可用性

M3 通过 MiniMax API 和 Token Plan 两种方式提供：

Plus: $20/月，约 17 亿 token
Max: $50/月，约 51 亿 token
Ultra: $120/月，约 98 亿 token

文本、图像、语音、音乐共享同一用量池。输入长度 ≤512K 按标准费率计算，超过 512K 按长上下文费率计费。

M3 还提供了 Thinking 模式切换：开启时为复杂推理和 Agent 任务提供深度思考能力，关闭时则适合对延迟敏感的场景（对话、代码补全），费率相同。

总评

M3 是一款定位极其明确的模型：它不想做"全能但平庸"的通用模型，而是瞄准了开源模型中长期存在的三个痛点——编码能力不够强、上下文不够长、多模态不够原生——并用架构创新将它们一次性解决。

对于开发者来说，M3 的意义在于：你在选择模型时不再需要在"长上下文"和"编码能力"、"多模态"之间做痛苦的三选一。尤其是在需要同时处理大量代码文件、多轮 Agent 交互和图文理解的任务中（如自主论文复现、全流程自动化等），M3 提供了一个此前只有闭源模型才能提供的综合体验。

原文来源：MiniMax 官方博客 — MiniMax M3 是 2026 年 6 月发布的开源权重模型，首次将前沿编码能力、百万 token 上下文和原生多模态融入单一架构。

MiniMax M3：首个将前沿编码、百万上下文和原生多模态集于一体的开源模型

MSA 稀疏注意力：超长上下文的关键

前沿编码与 Agent 能力

原生多模态：从预训练就开始融合

实战案例：M3 能做什么

案例一：自主复现 ICLR 2025 论文

案例二：CUDA 内核优化

案例三：PostTrainBench——让 M3 训练模型

定价与可用性

总评

相关文章

Code with Claude 2026 大会亲历记：AI 原生的工程组织长什么样

NVIDIA 开源物理 AI Agent 工具集：机器人、自动驾驶、工业数字孪生的新范式

OpenRouter Fusion：让多个 AI 模型「陪审团」共同为你决策