阿里千问最强智能体模型 Qwen3.7-Max 发布:国产大模型登顶Arena榜首

核心看点:

  • 阿里千问发布Qwen3.7-Max,面向智能体时代的旗舰模型
  • Arena盲测总榜登顶国产模型榜首,与GPT、Claude同处第一梯队
  • 可全自主完成35小时超长程任务,超1000次工具调用
  • 在全新芯片平台自主编程,推理速度提升10倍

详细解析:

5月20日,2026阿里云峰会上,阿里千问大模型正式发布Qwen3.7-Max——面向智能体时代的新一代旗舰模型。这是近三个月内阿里第三次迭代千问大模型,也是迄今最全面、最强大的智能体基座。

Qwen3.7-Max的核心优势在于智能体能力的广度与深度。编程方面,从前端原型开发到复杂的多文件工程均能驾驭;办公与生产力方面,通过MCP集成和多智能体协作实现工作流自动化;长周期自主执行方面,在一项长达35小时、超过1000次工具调用的全自主内核优化实验中保持了连贯推理,验证了其持久稳定的执行能力。

更惊人的是,Qwen3.7-Max在训练时从未接触过真武M890芯片,仅凭一份任务说明书,在没有人类干预、纠错的情况下自主完成了35小时的超长程智能体复杂任务,通过自主编程和超1000次工具调用,将芯片推理速度较官方原版本提升了10倍。

在第三方机构Arena公布的全球大模型盲测总榜中,Qwen3.7-Max超越Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国产竞品,与GPT、Claude、Gemini等最强模型同处第一梯队,成功登顶国产模型榜首。

具体测试表现上,Qwen3.7-Max在编程智能体、通用智能体、推理、多语言等多个维度全面领先。编程智能体方面,SWE-Pro得分60.6、SWE-Multilingual得分78.3;通用智能体方面,MCP-Mark得分60.8、MCP-Atlas得分76.4;推理方面,GPQA Diamond得分92.4、HLE得分41.4。

Qwen3.7-Max即将通过阿里云百炼提供服务,用户可以通过阿里云百炼API调用。

简评:

阿里这波节奏拉满了。三个月三次迭代,从模型到芯片到平台全栈打通,Qwen3.7-Max不仅是模型升级,更是阿里云拥抱智能体时代的战略宣言。35小时自主完成芯片优化、推理速度提升10倍——这已经不是跑分,是真刀真枪的工程能力。国产大模型竞争进入白热化,阿里用实力证明了自己在第一梯队的位置。

本文地址:https://www.163264.com/12079

(0)
Codex官方团队揭秘:6招把AI编程助手榨干到极致
上一篇 13小时前
下一篇 8小时前

相关推荐