核心看点:
- 阿里千问发布Qwen3.7-Max,面向智能体时代的旗舰模型
- Arena盲测总榜登顶国产模型榜首,与GPT、Claude同处第一梯队
- 可全自主完成35小时超长程任务,超1000次工具调用
- 在全新芯片平台自主编程,推理速度提升10倍
详细解析:
5月20日,2026阿里云峰会上,阿里千问大模型正式发布Qwen3.7-Max——面向智能体时代的新一代旗舰模型。这是近三个月内阿里第三次迭代千问大模型,也是迄今最全面、最强大的智能体基座。
Qwen3.7-Max的核心优势在于智能体能力的广度与深度。编程方面,从前端原型开发到复杂的多文件工程均能驾驭;办公与生产力方面,通过MCP集成和多智能体协作实现工作流自动化;长周期自主执行方面,在一项长达35小时、超过1000次工具调用的全自主内核优化实验中保持了连贯推理,验证了其持久稳定的执行能力。
更惊人的是,Qwen3.7-Max在训练时从未接触过真武M890芯片,仅凭一份任务说明书,在没有人类干预、纠错的情况下自主完成了35小时的超长程智能体复杂任务,通过自主编程和超1000次工具调用,将芯片推理速度较官方原版本提升了10倍。
在第三方机构Arena公布的全球大模型盲测总榜中,Qwen3.7-Max超越Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国产竞品,与GPT、Claude、Gemini等最强模型同处第一梯队,成功登顶国产模型榜首。
具体测试表现上,Qwen3.7-Max在编程智能体、通用智能体、推理、多语言等多个维度全面领先。编程智能体方面,SWE-Pro得分60.6、SWE-Multilingual得分78.3;通用智能体方面,MCP-Mark得分60.8、MCP-Atlas得分76.4;推理方面,GPQA Diamond得分92.4、HLE得分41.4。
Qwen3.7-Max即将通过阿里云百炼提供服务,用户可以通过阿里云百炼API调用。
简评:
阿里这波节奏拉满了。三个月三次迭代,从模型到芯片到平台全栈打通,Qwen3.7-Max不仅是模型升级,更是阿里云拥抱智能体时代的战略宣言。35小时自主完成芯片优化、推理速度提升10倍——这已经不是跑分,是真刀真枪的工程能力。国产大模型竞争进入白热化,阿里用实力证明了自己在第一梯队的位置。
本文地址:https://www.163264.com/12079

