DeepSeek灰度上线识图模式，多模态能力正式落地

【核心看点】
· DeepSeek在网页端和App端灰度测试”识图模式”，填补多模态能力空白
· 该模式作为独立一级入口，与快速、专家模式并列，定位为核心能力
· 目前开放图片理解能力，涵盖视觉问答、截图分析等场景

【详细解析】
4月29日，DeepSeek开始灰度测试”识图模式”，标志着这家在中国AI圈风头正劲的公司，终于补齐了多模态这块关键拼图。

从产品界面看，”识图模式”被放置在与快速模式、专家模式并列的一级入口位置，而非藏在二级菜单里的辅助功能。这一设计语言很明确——DeepSeek把视觉理解定位为与文本对话同等重要的核心能力。

进入识图模式后，用户可以在对话中上传图片，由DeepSeek进行内容理解、描述和分析。实测表现上，模型在基础视觉理解和逻辑推理方面表现优异，具备较高的还原度。比如上传一张产品截图，可以准确分析其中的功能和设计逻辑。

不过需要说明的是，目前开放的还只是”读图”能力，尚未涵盖图像生成、视频理解或跨模态生成。严格来说，这属于视觉语言模型（VLM）范畴，而非完整的多模态生成工具。另外，在面对极端视觉挑战（如遮挡严重、光线极差等场景）时，识别率仍有限。

部分灰度用户已可正常使用，另有部分用户看到入口但暂不可用，预计会逐步开放。

【简评】
DeepSeek在发布V4之后迅速补上识图能力，节奏控制得不错。作为独立入口而非隐藏功能，说明他们自己也很清楚——纯文本模型的护城河越来越窄，多模态是必争之地。虽然目前还不能看图生图，但”能看懂”已经是迈出了一大步。对开发者来说，一个能理解代码截图、能读图推理的开源级别模型，想象空间不小。

本文地址：https://www.163264.com/11389

DeepSeek灰度上线识图模式，多模态能力正式落地

相关推荐