GLM-5.1登顶全球开源模型第一：能独立编程8小时，SWE-bench Pro刷新纪录

2026年4月12日上午2:02 • 模型框架 • 阅读 793

智谱最新开源的 GLM-5.1 正在掀起一波讨论热潮。这款国产大模型不仅在全球权威评测平台 LMArena 的 Code Arena 榜单上拿下开源模型第一名、全球第三的位置，还在最贴近真实软件工程场景的 SWE-bench Pro 基准测试中刷新了全球最佳成绩，超过了 GPT-5.4 和 Claude Opus 4.6。

核心看点

GLM-5.1 登顶 LMArena Code Arena 开源榜首，全球综合排名第三
在 SWE-bench Pro 刷新世界纪录，真实 GitHub Bug 修复能力超越闭源顶流
唯一开源的「8小时级」持续编程模型：可独立完成从零构建 Linux 桌面等长程任务
长程任务执行达 655 次迭代优化向量数据库，1000 轮工具调用调度机器学习负载

真正让人惊喜的是它的长程持续工作能力。智谱官方透露，GLM-5.1 可以实现 8 小时从零构建 Linux 桌面环境，并在 METR 同等评估标准下，成为了除 Claude Opus 4.6 之外全球少数具备这一能力的模型，同时也是唯一开源的。

这意味着什么？大模型不再只是写几段函数就”交卷”的代码助手，而是一名能接手完整项目、持续迭代数小时的”AI 程序员”。

过去几年，开源模型一直在追赶闭源巨头的脚步，而 GLM-5.1 在编码能力和软件工程任务上的突破，让国产开源大模型第一次在国际最硬核的评测中站上了 C 位。

本文地址：https://www.163264.com/10871

GLM-5.1登顶全球开源模型第一：能独立编程8小时，SWE-bench Pro刷新纪录

核心看点

相关推荐