阿里刚刚发布了Qwen3.7-Plus,这不是简单的版本号升级,而是多模态能力的一次质变。
核心能力
- GUI+CLI双向通吃:既能理解图形界面,又能操作命令行
- 端到端开发:从前端原型到复杂软件工程,11小时自主闭环
- 视觉编程:把UI截图一键转化为可执行代码
- Vision Arena全球前五:视觉模型榜单中国第一
GUI+CLI意味着什么?
以前的AI要么只会命令行(CLI),要么只能看图说话(GUI)。Qwen3.7-Plus把两者打通了——你可以给它一个App截图,它不仅能理解界面,还能写出对应的代码。
实际应用场景:
- 设计师画出原型图,AI直接生成可运行代码
- 测试人员截图报错界面,AI自动定位问题并修复
- 产品经理描述需求,AI从界面到后端完整实现
11小时开发真实APP
阿里演示了一个案例:Qwen3.7-Plus用11小时独立完成了一款真实APP的开发,包括界面设计、功能实现、调试优化。
这不是demo,是完整的工程闭环。从需求理解到代码交付,AI全程自主完成,人类只在关键节点确认。
视频理解能力
Qwen3.7-Plus还升级了视频理解能力,涵盖:
- 文档解析和高级OCR
- 长短视频事件流理解
- 真实世界感知
这意味着AI不仅能读图,还能”看视频”并理解里面发生了什么。
行业意义
Qwen3.7-Plus在Vision Arena跻身全球前五、中国第一,说明国产多模态大模型已经追上了国际第一梯队。GUI+CLI的双向能力,更是让AI从”聊天工具”进化成了”工程助手”。
本文地址:https://www.163264.com/12588


微信扫一扫,鼓励一下~