AI 前沿·阅读约 2 分钟·
MiniMax M3:首个将前沿编码、百万上下文和原生多模态集于一体的开源模型

MiniMax M3:首个将前沿编码、百万上下文和原生多模态集于一体的开源模型

MiniMax M3 于 2026 年 6 月 1 日正式发布,是首个将前沿级编码能力、百万 token 上下文窗口和原生多模态能力集于一体的开源权重模型。MSA 稀疏注意力架构将超长上下文推理成本降至传统的 1/20。

2026 年 6 月 1 日,MiniMax 正式发布了其旗舰模型 M3。这是一款开源权重模型,其最大的差异化在于:它同时将三个前沿能力集于一身——前端级编码与 Agent 能力、百万 token 超长上下文、以及原生的图文多模态理解。在开源模型领域,这是目前唯一一个做到三者合一的模型。

M3 的发布在开发者社区引起了大量讨论,核心原因很简单:在此之前,如果你需要超长上下文,你得选 Gemini;如果你需要顶尖编码能力,你得用 GPT-5.5 或 Claude;如果你需要多模态,你需要在不同模型之间来回切换。M3 用一个模型覆盖了所有这些场景,而且它的权重是开源的。

这篇文章从架构创新、编码与 Agent 表现、多模态能力、实战案例四个维度来拆解 M3。

MSA 稀疏注意力:超长上下文的关键

上下文窗口的扩展从来不是简单的"把注意力矩阵做得更大"。标准 Transformer 的注意力计算量随序列长度呈平方级增长——1M token 的序列如果用标准全注意力,计算量大约是 128K 的 64 倍,这在推理时完全不可行。

M3 的核心创新在于 **MSA(MiniMax Sparse Attention)**架构。它有别于此前的 DSA 或 MoBA 等稀疏注意力方案,采用了一种 KV 分块粒度更精细的机制。简单来说,MSA 将 KV 缓存划分为更细粒度的块,并通过"KV outer gather Q"的方式——每个块只被读取一次,内存访问是连续的——大幅提升了算力利用率。

官方公布的数据是:

  • 在 1M token 场景下,每个 token 的计算量仅为传统注意力的 1/20
  • 预填充(prefilling)速度提升
  • 解码速度提升 15× 以上
  • 算力利用率(arithmetic intensity)比 Flash-Sparse-Attention 和 Flash-MoBA 快 4 倍以上

更重要的是,在各个能力维度的消融测试中,MSA 在绝大多数任务上达到了与全注意力几乎一致的效果。这意味着你获得的是"近似无损"的上下文压缩,而不是简单粗暴地丢弃信息。

—— 广告 ——

前沿编码与 Agent 能力

M3 在编码和 Agent 基准测试中的表现是它最受关注的部分。以下是官方公布的 Benchmark 数据:

基准测试M3 得分说明
SWE-Bench Pro59.0%真实 GitHub Issue 修复
Terminal-Bench 2.166.0%终端任务完成
SWE-fficiency34.8%效率型编码
KernelBench Hard28.8%内核级编程
MCP Atlas74.2%MCP 工具使用

这些分数放在当前模型格局中意味着什么?以 SWE-Bench Pro 为例,59.0% 已经进入了前沿模型梯队,与 GPT-5.5、Claude Opus 4.7 等闭源模型处在同一竞争区间。

MiniMax 团队还搭建了一个交互式用户模拟器来弥补单轮 Benchmark 与真实多轮协作之间的鸿沟。该模拟器涵盖了需求阐述、方案讨论、反馈修正、任务切换和迭代开发等完整工作流。这种测试方式比传统的单轮代码生成更贴近实际开发场景。

原生多模态:从预训练就开始融合

M3 的另一个关键差异化是从预训练的第一步起就采用混合模态训练——不是先训文本模型再"拼接"视觉能力,而是在整个训练过程中让文本和图文数据自然融合。

这意味着 M3 对图像/视频输入的理解不是在"文本模型上修修补补",而是在底层表征空间中就做到了文本和视觉的深度对齐。具体的说,M3 可以直接接受视频输入、处理桌面截图(computer use 场景),并从混合数据中学习跨模态的语义关联。

官方团队提到,这种"从零开始混合训练"的策略还有一个额外好处:图文交错数据(interleaved data)比纯合成数据的规模化扩展容易得多。

实战案例:M3 能做什么

官方公布的三个实战案例比任何 Benchmark 数字都更有说服力。

案例一:自主复现 ICLR 2025 论文

任务描述:自主复现 ICLR 2025 杰出论文《Learning Dynamics of LLM Finetuning》。M3 自主运行了约 12 小时,生成了 18 次 commit23 张实验图表,成功匹配了 SFT 预测概率趋势、观察到了 DPO 的 squeezing 效应、验证了 Extend 缓解方法。

这个案例中,长上下文用于理解论文全文 + 代码 + 日志,多模态用于解析曲线和数据表格,编码能力则用于整个复现流程的自动化。

案例二:CUDA 内核优化

任务描述:优化 NVIDIA Hopper GPU 上的 FP8 GEMM 内核。M3 运行了约 24 小时,提交了 147 次基准测试,调用了 1,959 次工具。最终将 Hopper FP8 硬件峰值利用率从 7.6% 提升至 71.3%9.4 倍加速)。

六轮标志性优化:基线实现 → 自动调优 → 瓶颈诊断 → CUDA Graph → persistent kernel → 主机端调度。最优方案出现在第 145 次提交,M3 继续探索穿过了多个性能平台区。

案例三:PostTrainBench——让 M3 训练模型

任务描述:给定 4 个预训练基座模型,在 12 小时内自主完成数据合成、模型训练、评估和迭代的全流程。目标是让基座模型获得 AIME2025、BFCL、GPQA、GSM8K、HumanEval 等多项能力。

M3 得分 0.37(Opus 4.7 为 0.42,GPT-5.5 为 0.39),虽然未达到闭源前沿的最高分,但已经超过了其他所有开源方案。

定价与可用性

M3 通过 MiniMax API 和 Token Plan 两种方式提供:

  • Plus: $20/月,约 17 亿 token
  • Max: $50/月,约 51 亿 token
  • Ultra: $120/月,约 98 亿 token

文本、图像、语音、音乐共享同一用量池。输入长度 ≤512K 按标准费率计算,超过 512K 按长上下文费率计费。

M3 还提供了 Thinking 模式切换:开启时为复杂推理和 Agent 任务提供深度思考能力,关闭时则适合对延迟敏感的场景(对话、代码补全),费率相同。

总评

M3 是一款定位极其明确的模型:它不想做"全能但平庸"的通用模型,而是瞄准了开源模型中长期存在的三个痛点——编码能力不够强、上下文不够长、多模态不够原生——并用架构创新将它们一次性解决。

对于开发者来说,M3 的意义在于:你在选择模型时不再需要在"长上下文"和"编码能力"、"多模态"之间做痛苦的三选一。尤其是在需要同时处理大量代码文件、多轮 Agent 交互和图文理解的任务中(如自主论文复现、全流程自动化等),M3 提供了一个此前只有闭源模型才能提供的综合体验。

原文来源:MiniMax 官方博客 — MiniMax M3 是 2026 年 6 月发布的开源权重模型,首次将前沿编码能力、百万 token 上下文和原生多模态融入单一架构。

分享到
微博Twitter

© 2026 四月 · CC BY-NC-SA 4.0

原文链接:https://aprilzz.com/ai/minimax-m3-model