字节跳动发布全模态大模型Doubao-Seed-2.0-lite：能听会看还会动手操作电脑

字节跳动又放大招了！旗下火山引擎正式发布了全模态大模型 Doubao-Seed-2.0-lite。什么叫{LQ}全模态{RQ}？简单说就是，这个模型能同时理解视频、图像、音频和文字，不再像以前的模型那样只能处理单一类型的信息。

打个比方，以前的AI模型可能只能看文字或者只能看图片，但Doubao-Seed-2.0-lite可以一边听你说话、一边看着你给的视频画面、一边理解文字内容，然后把所有信息综合起来做出判断。这种能力让它离{LQ}像人一样感知世界{RQ}更近了一步。

更厉害的是，它在视觉和逻辑推理方面的表现相当出色。在物理、医疗这些高阶学科的复杂推理测试中，它的表现甚至超越了之前更重的Pro版本。这意味着它在处理专业领域问题——比如物理实验题、医学影像分析——时，展现出了更强的理解和推理能力。

但最让人惊艳的是它首次实现了GUI（图形用户界面）理解与执行的一体化。什么意思呢？就是你给它一张电脑屏幕的截图，它能理解屏幕上有哪些按钮、文本框、菜单，然后直接帮你完成点击、拖拽、输入等操作。换句话说，AI不仅能看懂你的电脑屏幕，还能直接替你{LQ}上手{RQ}干活。

想象一下这个场景：你说{LQ}帮我把桌面上那个Excel文件打开，把A列的数据复制到B列，然后保存{RQ}，这个模型能理解你的语音指令，看懂桌面的界面布局，然后操控鼠标键盘一步一步完成操作。这已经不是简单的{LQ}聊天机器人{RQ}了，这是真正能帮你干活的AI助手。

本文地址：https://www.163264.com/11482