MiniMax M3发布：国产首个百万上下文开源大模型，编程能力超GPT-5.5

核心看点：

国内首个同时具备”前沿编程+百万上下文+原生多模态”三项能力的开源模型
自研MSA稀疏注意力架构，1M上下文下每token计算量仅为上代1/20
编程评测超越GPT-5.5和Gemini 3.1 Pro，代码可直接交付不用改

6月1日，MiniMax稀宇科技正式发布通用大模型M3。这不是一次普通的模型升级，而是国产大模型在三个关键维度上同时实现突破。

MSA架构：让长上下文不再昂贵

M3最大的技术亮点是自研的MiniMax Sparse Attention（MSA）稀疏注意力架构。传统Transformer处理长文本时，计算量随长度平方增长，100万token的上下文对大多数模型来说是个天文数字。MSA通过稀疏化注意力机制，在1M上下文窗口下，每token的计算量只有上代模型的1/20。

实际效果更直观：prefilling阶段加速超9倍，decoding阶段加速超15倍。这意味着你扔给模型一本几百页的技术文档，它的理解和生成速度不会比处理几段话慢多少。

编程能力：写出来的代码能直接用

M3在SWE-Bench Pro、SVG-Bench等多个权威编程评测中表现优异，尤其在面向自主智能体的端到端评测中取得最高分。MiniMax的表述很实在：”写出的代码目标是直接可交付，而不是能跑但需要人改。”

同步更新的Agent产品MiniMaxCode，让开发者可以直接体验M3的编程和智能体能力。

原生多模态：从第一步就开始训练

M3不是先训文本再拼接视觉模块，而是重构了整个数据管线，预训练数据规模扩充至百T量级，从第零步开始多模态训练。这让文本和视觉语义空间高度对齐，能处理图片、视频输入并操作电脑桌面。

开源+API双开放

M3已开源并开放API调用，API最高支持1M tokens上下文窗口，保障至少512K tokens可用。对于需要处理长文档、长视频理解的开发者和企业来说，这是一个实打实的基础设施。

从追赶者到并跑者，国产大模型的竞争正在进入深水区。

本文地址：https://www.163264.com/12543

MiniMax M3发布：国产首个百万上下文开源大模型，编程能力超GPT-5.5

相关推荐