GLM-5.1登顶全球开源模型第一:能独立编程8小时,SWE-bench Pro刷新纪录

智谱最新开源的 GLM-5.1 正在掀起一波讨论热潮。这款国产大模型不仅在全球权威评测平台 LMArena 的 Code Arena 榜单上拿下开源模型第一名、全球第三的位置,还在最贴近真实软件工程场景的 SWE-bench Pro 基准测试中刷新了全球最佳成绩,超过了 GPT-5.4 和 Claude Opus 4.6。

核心看点

  • GLM-5.1 登顶 LMArena Code Arena 开源榜首,全球综合排名第三
  • 在 SWE-bench Pro 刷新世界纪录,真实 GitHub Bug 修复能力超越闭源顶流
  • 唯一开源的「8小时级」持续编程模型:可独立完成从零构建 Linux 桌面等长程任务
  • 长程任务执行达 655 次迭代优化向量数据库,1000 轮工具调用调度机器学习负载

真正让人惊喜的是它的长程持续工作能力。智谱官方透露,GLM-5.1 可以实现 8 小时从零构建 Linux 桌面环境,并在 METR 同等评估标准下,成为了除 Claude Opus 4.6 之外全球少数具备这一能力的模型,同时也是唯一开源的。

这意味着什么?大模型不再只是写几段函数就”交卷”的代码助手,而是一名能接手完整项目、持续迭代数小时的”AI 程序员”。

过去几年,开源模型一直在追赶闭源巨头的脚步,而 GLM-5.1 在编码能力和软件工程任务上的突破,让国产开源大模型第一次在国际最硬核的评测中站上了 C 位。

本文地址:https://www.163264.com/10871

(0)
上一篇 4小时前
下一篇 1小时前

相关推荐