国产大模型的开源阵营再添两员猛将。日前,MiniMax 正式官宣 MiniMax M2.7 全面开源,加上此前已在开源社区引发轰动的 GLM-5.1,目前中国最具竞争力的两大顶级模型均已向开发者完全开放。
核心亮点一览
- MiniMax M2.7:在 SWE-Pro 与 Terminal Bench 2 两大硬核基准上连夺 SOTA,终端操控能力极强
- GLM-5.1:SWE-Bench Pro 排名全球第三、开源第一,支持 8 小时长程任务自主迭代
- 两大模型均已上架 Hugging Face,权重与推理代码完全开放
MiniMax M2.7:终端操控与软件工程双冠王
MiniMax M2.7 的亮相堪称惊艳。在衡量真实软件工程能力的 SWE-Pro 基准测试中,M2.7 刷新了开源模型的最好成绩;而在专门评估终端命令行操作能力的 Terminal Bench 2 上,同样拿下 SOTA。
这意味着 M2.7 不仅能「写代码」,更能在复杂的命令行环境中自主规划、执行调试、修改配置文件、调用工具链—— essentially 一名能独立操刀的「AI 系统工程师」。
模型已托管至 Hugging Face:
GLM-5.1:8 小时独立编程,真正的 Coding Agent
GLM-5.1 则把「长程任务」推到了新高度。在 SWE-Bench Pro 这项最接近真实 GitHub 修 Bug 场景的评测中,GLM-5.1 位列全球第三,仅次于最顶尖的闭源模型,并稳居开源第一。
更引人注目的是其持续工作能力:官方演示显示,GLM-5.1 可独立完成长达 8 小时的编程任务,在过程中自主迭代多达 655 次,进行 1000 轮工具调用。这让它从「代码补全助手」跃升为能接管完整项目的 Coding Agent。
模型已托管至 Hugging Face:
👉 GLM-5.1
开源浪潮加速:顶尖性能不再等于闭源壁垒
过去,最顶尖的大模型能力往往被闭源巨头垄断。而 GLM-5.1 与 MiniMax M2.7 的相继开源,标志着国产大模型不仅在性能上追平了国际一线水准,更在开放生态上释放了强烈信号:开发者、研究团队、初创企业都可以基于这些顶级权重进行二次训练、场景定制和产品创新。
当开源模型具备了 8 小时自主编程、复杂终端操控、真实软件工程 SOTA 等硬实力,闭源与开源之间的护城河,正在以比预期更快的速度被填平。
本文地址:https://www.163264.com/10881