MiniMax M3发布:国产首个百万上下文开源大模型,编程能力超GPT-5.5

MiniMax M3发布:国产首个百万上下文开源大模型,编程能力超GPT-5.5

核心看点:

  • 国内首个同时具备”前沿编程+百万上下文+原生多模态”三项能力的开源模型
  • 自研MSA稀疏注意力架构,1M上下文下每token计算量仅为上代1/20
  • 编程评测超越GPT-5.5和Gemini 3.1 Pro,代码可直接交付不用改

6月1日,MiniMax稀宇科技正式发布通用大模型M3。这不是一次普通的模型升级,而是国产大模型在三个关键维度上同时实现突破。

MSA架构:让长上下文不再昂贵

M3最大的技术亮点是自研的MiniMax Sparse Attention(MSA)稀疏注意力架构。传统Transformer处理长文本时,计算量随长度平方增长,100万token的上下文对大多数模型来说是个天文数字。MSA通过稀疏化注意力机制,在1M上下文窗口下,每token的计算量只有上代模型的1/20。

实际效果更直观:prefilling阶段加速超9倍,decoding阶段加速超15倍。这意味着你扔给模型一本几百页的技术文档,它的理解和生成速度不会比处理几段话慢多少。

编程能力:写出来的代码能直接用

M3在SWE-Bench Pro、SVG-Bench等多个权威编程评测中表现优异,尤其在面向自主智能体的端到端评测中取得最高分。MiniMax的表述很实在:”写出的代码目标是直接可交付,而不是能跑但需要人改。”

同步更新的Agent产品MiniMaxCode,让开发者可以直接体验M3的编程和智能体能力。

原生多模态:从第一步就开始训练

M3不是先训文本再拼接视觉模块,而是重构了整个数据管线,预训练数据规模扩充至百T量级,从第零步开始多模态训练。这让文本和视觉语义空间高度对齐,能处理图片、视频输入并操作电脑桌面。

开源+API双开放

M3已开源并开放API调用,API最高支持1M tokens上下文窗口,保障至少512K tokens可用。对于需要处理长文档、长视频理解的开发者和企业来说,这是一个实打实的基础设施。

从追赶者到并跑者,国产大模型的竞争正在进入深水区。

本文地址:https://www.163264.com/12543

(0)
上一篇 11小时前
英伟达发布Cosmos 3:全球首款全开源全模态物理AI大模型,让机器人看懂世界
下一篇 7小时前

相关推荐