阿里通义千问重磅升级：新旗舰Qwen3.7预览版全球首发亮相

阿里云的通义千问家族又更新了，这次直接甩出了两张新牌：Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview。一个主打文本推理，一个主攻视觉理解，双双杀进了全球第一梯队。

先看看成绩单。Qwen3.7 Max Preview在文本处理榜单上排到了全球第13位，Qwen3.7 Plus Preview在视觉领域排到了全球第16位。而通义千问实验室的整体排名，直接跃升到了全球第五。

核心看点

文本推理全球第13：Qwen3.7 Max Preview在逻辑推理和长文本理解上表现亮眼
视觉理解全球第16：Qwen3.7 Plus Preview在多模态任务中跻身顶尖行列
通义千问全球第五：实验室整体实力进入全球前五，国产大模型再进一步

说实话，这个排名挺硬的。不是国内自嗨的榜单，是LMSYS Chatbot Arena这种全球公认的权威评测——让真实用户盲测不同模型的回答质量，靠投票说话。能在这个榜单上挤进前15，说明模型质量确实得到了全球用户的认可。

先说说Qwen3.7 Max Preview。它的核心升级在逻辑推理和深度计算。以前的模型做数学题，经常是”看起来对了但过程全错”，或者推理到一半就断了。Qwen3.7 Max Preview在链式思维（Chain-of-Thought）上做了优化，做复杂数学题时会把解题步骤拆解得更细，像真人一样”一步一步来”，而不是直接跳答案。

长文本理解也是重点。现在的知识工作者每天面对的是几十页的PDF、几万字的报告，普通模型的上下文窗口根本吃不下。Qwen3.7 Max Preview支持128K tokens的上下文，相当于一次能读进去十几万字的文档，而且不是”读完就忘”——它能准确记住文档前后文的关联，回答细节问题时不会张冠李戴。

再说Qwen3.7 Plus Preview，这是主攻视觉理解的多模态模型。它能看图说话、读图表、理解流程图，甚至能分析设计稿。对于电商行业来说，这意味着AI可以自动审核商品图片是否符合规范、识别图片中的文字和卖点、甚至根据竞品图片给出优化建议。对于教育行业，学生拍一道数学题，AI不仅能识别题目，还能看懂配图里的几何关系，给出完整的解题过程。

这两个模型还有一个共同特点：代码能力大幅提升。Qwen3.7 Max Preview在HumanEval（编程能力基准测试）上得分超过了GPT-4的早期版本，能处理更复杂的算法题和系统架构设计。Qwen3.7 Plus Preview则能”看图写代码”——给你一张网页设计稿，它能把HTML/CSS/JS都写出来，而且样式还原度很高。

通义千问这次能冲到全球第五，背后是阿里云在模型训练基础设施上的持续投入。据了解，Qwen3.7系列是在阿里云最新的灵骏智算集群上训练的，用了数万张GPU卡，训练成本超过10亿人民币。这种投入规模在国内只有阿里、百度、字节几家能做，而阿里的优势在于有云计算业务反哺——模型训练需要的算力正好是自己的生意，边际成本更低。

对于开发者来说，Qwen3.7系列的另一个吸引力是开放性。阿里对通义千问一直走开源路线，Qwen3.7的两个版本最终都会开源（Preview是预览版，正式版发布后开源）。开发者可以免费下载模型权重，在本地部署、微调、商业化——这和OpenAI的封闭策略形成鲜明对比。国内很多中小企业和个人开发者，正是靠着通义千问的开源模型才能低成本用上大模型能力。

当然，排名只是一方面，实际体验更重要。通义千问的前几个版本在中文语境理解上有优势，但在英文和代码场景上稍弱。Qwen3.7系列明显补齐了这块短板，中英文双语能力更均衡，代码生成也更实用。如果你之前因为通义千问”中文行、英文一般”而犹豫，这次可以重新试试了。

国产大模型的竞争已经进入白热化阶段。百度文心、阿里通义、字节豆包、腾讯混元、华为盘古，每家都在拼模型质量、拼落地速度、拼生态建设。通义千问这次冲到全球第五，给了阿里云和国产大模型阵营一剂强心针——至少在技术上，我们已经能和OpenAI、Anthropic、Google掰手腕了。下一步，就看谁能把这些技术能力更快、更好地变成产品价值。

本文地址：https://www.163264.com/11911

阿里通义千问重磅升级：新旗舰Qwen3.7预览版全球首发亮相

核心看点

相关推荐