智谱最新开源的 GLM-5.1 正在掀起一波讨论热潮。这款国产大模型不仅在全球权威评测平台 LMArena 的 Code Arena 榜单上拿下开源模型第一名、全球第三的位置,还在最贴近真实软件工程场景的 SWE-bench Pro 基准测试中刷新了全球最佳成绩,超过了 GPT-5.4 和 Claude Opus 4.6。
核心看点
- GLM-5.1 登顶 LMArena Code Arena 开源榜首,全球综合排名第三
- 在 SWE-bench Pro 刷新世界纪录,真实 GitHub Bug 修复能力超越闭源顶流
- 唯一开源的「8小时级」持续编程模型:可独立完成从零构建 Linux 桌面等长程任务
- 长程任务执行达 655 次迭代优化向量数据库,1000 轮工具调用调度机器学习负载
真正让人惊喜的是它的长程持续工作能力。智谱官方透露,GLM-5.1 可以实现 8 小时从零构建 Linux 桌面环境,并在 METR 同等评估标准下,成为了除 Claude Opus 4.6 之外全球少数具备这一能力的模型,同时也是唯一开源的。
这意味着什么?大模型不再只是写几段函数就”交卷”的代码助手,而是一名能接手完整项目、持续迭代数小时的”AI 程序员”。
过去几年,开源模型一直在追赶闭源巨头的脚步,而 GLM-5.1 在编码能力和软件工程任务上的突破,让国产开源大模型第一次在国际最硬核的评测中站上了 C 位。
本文地址:https://www.163264.com/10871