核心看点
- 🏆 GLM-5.1登顶LMArena Code Arena全球开源模型榜首,位列全球第三
- 💻 编程评分45.3分,与最强Opus 4.6仅差2.6分
- ⏱️ 唯一实现8小时持续工作的开源模型,SWE-bench Pro刷新全球最佳成绩
智谱AI旗下开源大模型GLM-5.1正式发布后,迅速在开发者圈引爆热潮。最新的全球权威AI评测平台LMArena(百万用户盲测)Code Arena专项榜单更新显示,GLM-5.1已登顶全球开源模型第一,综合排名全球第三。
编程能力直逼顶级闭源模型
3月底智谱正式推出GLM-5.1大模型,在编程能力评测中获得45.3分的高分,号称仅比全球最强的Claude Opus 4.6低2.6分。这一成绩在开源阵营中堪称断层领先。
更值得关注的是,GLM-5.1不仅继承了上一代的开源SOTA编码能力,还在长程任务(Long-Horizon Task)上实现了重大突破。
长程任务:8小时持续编码能力
GLM-5.1在METR榜单同等评估标准下,成为唯一达到8小时级持续工作的开源模型,具体表现包括:
- 🖥️ 8小时从零构建Linux桌面
- 🔄 655次迭代打破向量数据库优化瓶颈
- 🔧 1000轮工具调用优化真实机器学习模型负载
在全球范围内,除Claude Opus 4.6外,很少有模型具备如此长程的持续工作能力。
SWE-bench Pro刷新全球纪录
在最接近真实软件开发的SWE-bench Pro基准测试中,GLM-5.1刷新了全球最佳成绩,超越了GPT-5.4和Claude Opus 4.6。
SWE-bench Pro要求模型在真实GitHub仓库中独立定位并修复高难度工程Bug,被誉为衡量模型能否胜任专业软件开发的最硬指标。GLM-5.1在该测试中的突破,意味着开源模型在专业编程场景已具备与顶级闭源模型掰手腕的实力。
开源的意义
GLM-5.1的强势崛起,标志着国产开源大模型在代码能力赛道已站上了世界舞台中央。对于广大开发者而言,一个能8小时独立编程、且完全开源可用的顶级模型无疑将大幅降低AI编程门槛,加速技术普惠。
原文参考:chinaz.com
本文地址:https://www.163264.com/10850