国产AI大模型GLM-5.1登顶开源第一：可独立编程8小时

2026年4月11日下午7:44 • 模型框架 • 阅读 737

Table of Contents

核心看点

🏆 GLM-5.1登顶LMArena Code Arena全球开源模型榜首，位列全球第三
💻 编程评分45.3分，与最强Opus 4.6仅差2.6分
⏱️ 唯一实现8小时持续工作的开源模型，SWE-bench Pro刷新全球最佳成绩

智谱AI旗下开源大模型GLM-5.1正式发布后，迅速在开发者圈引爆热潮。最新的全球权威AI评测平台LMArena（百万用户盲测）Code Arena专项榜单更新显示，GLM-5.1已登顶全球开源模型第一，综合排名全球第三。

编程能力直逼顶级闭源模型

3月底智谱正式推出GLM-5.1大模型，在编程能力评测中获得45.3分的高分，号称仅比全球最强的Claude Opus 4.6低2.6分。这一成绩在开源阵营中堪称断层领先。

更值得关注的是，GLM-5.1不仅继承了上一代的开源SOTA编码能力，还在长程任务（Long-Horizon Task）上实现了重大突破。

长程任务：8小时持续编码能力

GLM-5.1在METR榜单同等评估标准下，成为唯一达到8小时级持续工作的开源模型，具体表现包括：

🖥️ 8小时从零构建Linux桌面
🔄 655次迭代打破向量数据库优化瓶颈
🔧 1000轮工具调用优化真实机器学习模型负载

在全球范围内，除Claude Opus 4.6外，很少有模型具备如此长程的持续工作能力。

SWE-bench Pro刷新全球纪录

在最接近真实软件开发的SWE-bench Pro基准测试中，GLM-5.1刷新了全球最佳成绩，超越了GPT-5.4和Claude Opus 4.6。

SWE-bench Pro要求模型在真实GitHub仓库中独立定位并修复高难度工程Bug，被誉为衡量模型能否胜任专业软件开发的最硬指标。GLM-5.1在该测试中的突破，意味着开源模型在专业编程场景已具备与顶级闭源模型掰手腕的实力。

开源的意义

GLM-5.1的强势崛起，标志着国产开源大模型在代码能力赛道已站上了世界舞台中央。对于广大开发者而言，一个能8小时独立编程、且完全开源可用的顶级模型无疑将大幅降低AI编程门槛，加速技术普惠。

原文参考：chinaz.com

本文地址：https://www.163264.com/10850

glm 开源

赞 (0)

0 打赏微信扫一扫，鼓励一下～

生成海报

Karpathy预警：”AI认知鸿沟”正在撕裂社会
上一篇 2026年4月11日下午12:30

拒绝”套壳”AI：微信公众号重拳打击非真人自动化写作
下一篇 2026年4月11日下午7:52

相关推荐
腾讯混元3D世界模型2.0开源发布：AI从对话画图进化到造世界，无缝对接游戏引擎 2026年4月17日
亚毫米级精度！小米开源VLA机器人大模型后训练全流程，机器人自己学会收纳耳机 2026年4月27日
蚂蚁集团正式开源万亿级大模型Ling-2.6-1T，代码生成能力达到开源顶尖 2026年5月1日
AI 行业日报 · 2026年5月13日 | Anthropic冲刺9000亿估值小米开源OneVL 李彦宏定义DAA新指标 2026年5月13日
MiniMax 2.7正式开源：编程能力比肩Claude Opus，国产开源模型再添猛将 2026年4月14日
OpenAI推出”修补地球”计划：用AI助力开源社区提升网络安全 2026年6月23日
阿里云CoPaw更名QwenPaw：深化通义千问开源生态，打造最低门槛AI Agent 2026年4月14日
小米未来三年AI投入超600亿：MiMo-V2.5即将开源，大模型团队平均仅25岁 2026年4月28日
AI日报：美团开源万亿参数大模型LongCat-2.0；小红书RedKnot推理引擎开源 2026年7月1日
阿里开源Qwen3.6-35B-A3B：30亿激活参数实现编程能力跨越式升级 2026年4月18日

AI 日报

开源项目

应用

行业/好文

教程

模型框架

报告

ICP备案号：冀ICP备12021826号