DeepSeek灰度上线识图模式,多模态能力正式落地

【核心看点】
· DeepSeek在网页端和App端灰度测试”识图模式”,填补多模态能力空白
· 该模式作为独立一级入口,与快速、专家模式并列,定位为核心能力
· 目前开放图片理解能力,涵盖视觉问答、截图分析等场景

【详细解析】
4月29日,DeepSeek开始灰度测试”识图模式”,标志着这家在中国AI圈风头正劲的公司,终于补齐了多模态这块关键拼图。

从产品界面看,”识图模式”被放置在与快速模式、专家模式并列的一级入口位置,而非藏在二级菜单里的辅助功能。这一设计语言很明确——DeepSeek把视觉理解定位为与文本对话同等重要的核心能力。

进入识图模式后,用户可以在对话中上传图片,由DeepSeek进行内容理解、描述和分析。实测表现上,模型在基础视觉理解和逻辑推理方面表现优异,具备较高的还原度。比如上传一张产品截图,可以准确分析其中的功能和设计逻辑。

不过需要说明的是,目前开放的还只是”读图”能力,尚未涵盖图像生成、视频理解或跨模态生成。严格来说,这属于视觉语言模型(VLM)范畴,而非完整的多模态生成工具。另外,在面对极端视觉挑战(如遮挡严重、光线极差等场景)时,识别率仍有限。

部分灰度用户已可正常使用,另有部分用户看到入口但暂不可用,预计会逐步开放。

【简评】
DeepSeek在发布V4之后迅速补上识图能力,节奏控制得不错。作为独立入口而非隐藏功能,说明他们自己也很清楚——纯文本模型的护城河越来越窄,多模态是必争之地。虽然目前还不能看图生图,但”能看懂”已经是迈出了一大步。对开发者来说,一个能理解代码截图、能读图推理的开源级别模型,想象空间不小。

本文地址:https://www.163264.com/11389

(0)
上一篇 10小时前
下一篇 4小时前

相关推荐