DeepSeek 开启识图模式灰度测试，多模态视觉理解正式落地

1小时前 • 模型框架 • 阅读 6

核心看点

• DeepSeek-V4 发布后火速上线识图模式，多模态视觉理解能力正式落地
• 移动端与网页版新增识图入口，基础视觉理解、描述、推理表现出色
• 极端视觉场景下识别率仍有提升空间

DeepSeek 最近有点猛。刚发完 V4 大模型，转头就把多模态识图功能灰度测试给开了。

这波操作什么意思呢？就是 DeepSeek 不仅能”看懂文字”了，还能”看懂图片”了。你在手机上或者网页版里，能找到一个新的”识图模式”入口，上传一张图，它就能告诉你图里是什么、什么场景、甚至能做一些逻辑推理。

从目前流出的测试反馈来看，DeepSeek 的识图能力在基础层面表现相当不错。给它一张复杂的场景图，它不仅能准确描述画面，还能推理出画面中人物之间的关系、情绪状态等深层信息。还原度比很多人预期的要高。

不过也不是没短板。在极端视觉挑战下——比如光线极暗、物体遮挡严重、或者图片分辨率过低——识别率就会明显下降。这也是当前多模态模型的普遍难题，不光是 DeepSeek 的问题。

不管怎么说，DeepSeek 这波动作说明了一个趋势：国产大模型在卷完文本能力之后，视觉理解是下一个必争之地。而 DeepSeek 已经抢先落子了。

本文地址：https://www.163264.com/11343