阿里云的通义千问家族又更新了,这次直接甩出了两张新牌:Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview。一个主打文本推理,一个主攻视觉理解,双双杀进了全球第一梯队。
先看看成绩单。Qwen3.7 Max Preview在文本处理榜单上排到了全球第13位,Qwen3.7 Plus Preview在视觉领域排到了全球第16位。而通义千问实验室的整体排名,直接跃升到了全球第五。
核心看点
- 文本推理全球第13:Qwen3.7 Max Preview在逻辑推理和长文本理解上表现亮眼
- 视觉理解全球第16:Qwen3.7 Plus Preview在多模态任务中跻身顶尖行列
- 通义千问全球第五:实验室整体实力进入全球前五,国产大模型再进一步
说实话,这个排名挺硬的。不是国内自嗨的榜单,是LMSYS Chatbot Arena这种全球公认的权威评测——让真实用户盲测不同模型的回答质量,靠投票说话。能在这个榜单上挤进前15,说明模型质量确实得到了全球用户的认可。
先说说Qwen3.7 Max Preview。它的核心升级在逻辑推理和深度计算。以前的模型做数学题,经常是”看起来对了但过程全错”,或者推理到一半就断了。Qwen3.7 Max Preview在链式思维(Chain-of-Thought)上做了优化,做复杂数学题时会把解题步骤拆解得更细,像真人一样”一步一步来”,而不是直接跳答案。
长文本理解也是重点。现在的知识工作者每天面对的是几十页的PDF、几万字的报告,普通模型的上下文窗口根本吃不下。Qwen3.7 Max Preview支持128K tokens的上下文,相当于一次能读进去十几万字的文档,而且不是”读完就忘”——它能准确记住文档前后文的关联,回答细节问题时不会张冠李戴。
再说Qwen3.7 Plus Preview,这是主攻视觉理解的多模态模型。它能看图说话、读图表、理解流程图,甚至能分析设计稿。对于电商行业来说,这意味着AI可以自动审核商品图片是否符合规范、识别图片中的文字和卖点、甚至根据竞品图片给出优化建议。对于教育行业,学生拍一道数学题,AI不仅能识别题目,还能看懂配图里的几何关系,给出完整的解题过程。
这两个模型还有一个共同特点:代码能力大幅提升。Qwen3.7 Max Preview在HumanEval(编程能力基准测试)上得分超过了GPT-4的早期版本,能处理更复杂的算法题和系统架构设计。Qwen3.7 Plus Preview则能”看图写代码”——给你一张网页设计稿,它能把HTML/CSS/JS都写出来,而且样式还原度很高。
通义千问这次能冲到全球第五,背后是阿里云在模型训练基础设施上的持续投入。据了解,Qwen3.7系列是在阿里云最新的灵骏智算集群上训练的,用了数万张GPU卡,训练成本超过10亿人民币。这种投入规模在国内只有阿里、百度、字节几家能做,而阿里的优势在于有云计算业务反哺——模型训练需要的算力正好是自己的生意,边际成本更低。
对于开发者来说,Qwen3.7系列的另一个吸引力是开放性。阿里对通义千问一直走开源路线,Qwen3.7的两个版本最终都会开源(Preview是预览版,正式版发布后开源)。开发者可以免费下载模型权重,在本地部署、微调、商业化——这和OpenAI的封闭策略形成鲜明对比。国内很多中小企业和个人开发者,正是靠着通义千问的开源模型才能低成本用上大模型能力。
当然,排名只是一方面,实际体验更重要。通义千问的前几个版本在中文语境理解上有优势,但在英文和代码场景上稍弱。Qwen3.7系列明显补齐了这块短板,中英文双语能力更均衡,代码生成也更实用。如果你之前因为通义千问”中文行、英文一般”而犹豫,这次可以重新试试了。
国产大模型的竞争已经进入白热化阶段。百度文心、阿里通义、字节豆包、腾讯混元、华为盘古,每家都在拼模型质量、拼落地速度、拼生态建设。通义千问这次冲到全球第五,给了阿里云和国产大模型阵营一剂强心针——至少在技术上,我们已经能和OpenAI、Anthropic、Google掰手腕了。下一步,就看谁能把这些技术能力更快、更好地变成产品价值。
本文地址:https://www.163264.com/11911

