DeepSeek 开启识图模式灰度测试,多模态视觉理解正式落地

核心看点

DeepSeek-V4 发布后火速上线识图模式,多模态视觉理解能力正式落地
• 移动端与网页版新增识图入口,基础视觉理解、描述、推理表现出色
• 极端视觉场景下识别率仍有提升空间

DeepSeek 最近有点猛。刚发完 V4 大模型,转头就把多模态识图功能灰度测试给开了。

这波操作什么意思呢?就是 DeepSeek 不仅能”看懂文字”了,还能”看懂图片”了。你在手机上或者网页版里,能找到一个新的”识图模式”入口,上传一张图,它就能告诉你图里是什么、什么场景、甚至能做一些逻辑推理。

从目前流出的测试反馈来看,DeepSeek 的识图能力在基础层面表现相当不错。给它一张复杂的场景图,它不仅能准确描述画面,还能推理出画面中人物之间的关系、情绪状态等深层信息。还原度比很多人预期的要高。

不过也不是没短板。在极端视觉挑战下——比如光线极暗、物体遮挡严重、或者图片分辨率过低——识别率就会明显下降。这也是当前多模态模型的普遍难题,不光是 DeepSeek 的问题。

不管怎么说,DeepSeek 这波动作说明了一个趋势:国产大模型在卷完文本能力之后,视觉理解是下一个必争之地。而 DeepSeek 已经抢先落子了。

本文地址:https://www.163264.com/11343

(0)
上一篇 5小时前
下一篇 1小时前

相关推荐