模态 | 梭哈 AI

OpenAI发布GPT-5技术报告：推理能力大幅提升，多模态理解更自然

OpenAI最近发布了GPT-5的技术报告，虽然没有正式的产品发布，但从透露的信息来看，这次升级在推理能力和多模态理解方面都有显著提升。推理能力：从”快思考”到”慢思考” GPT-5最大的改进是推理能力。之前的模型虽然知识面广，但在需要深度推理的任务上经常掉链子。GPT-5引入了更长的思维链机制，让模型可以像人类一样&#8221…

openai-gpt 2026年7月7日

字节开源Lance 3B：统一多模态大模型，小身材大能量

核心看点字节跳动开源了Lance 3B——一款统一多模态大模型。虽然只有3B参数，但在多模态任务上表现出色，证明了小模型+好架构也能打出漂亮仗。详细解析 Lance 3B的核心特点：统一架构：单一模型处理文本、图像等多种模态，简化了多模态AI的开发流程轻量级：3B参数规模，部署成本低，适合边缘设备和中小型应用开源开放：字节选择开源，有助于吸引开发者社区参与迭代多模态…

开源项目 2026年5月23日

字节开源Lance 3B：统一多模态大模型，小身材大能量

核心看点字节跳动开源了Lance 3B——一款统一多模态大模型。虽然只有3B参数，但在多模态任务上表现出色，证明了小模型+好架构也能打出漂亮仗。详细解析 Lance 3B的核心特点：统一架构：单一模型处理文本、图像等多种模态，简化了多模态AI的开发流程轻量级：3B参数规模，部署成本低，适合边缘设备和中小型应用开源开放：字节选择开源，有助于吸引开发者社区参与迭代多模态…

开源项目 2026年5月23日

Google Gemini

谷歌推出Gemini Omni模型，开启多模态交互新时代

谷歌I/O 2026发布Gemini Omni，这是一款真正意义上的多模态AI模型，能够同时理解并处理文本、音频、图像和视频，标志着人机交互从”单通道输入”迈入”全感官融合”的新阶段。核心看点真·多模态：同时处理文本、音频、图像、视频，跨模态理解能力质的飞跃实时交互：在实时性和准确性上显著提升，延迟更低、响应更自然场景重构…

2026年5月20日

Google升级Gemini API文件搜索：多模态RAG能力大跨越，企业级AI检索精度飙升

Google最近升级了Gemini API的文件搜索功能，这次升级的核心是引入多模态RAG（检索增强生成）能力。说白了就是：你现在不仅能搜文字，还能搜PDF里的图表、文档里的图片，AI给出答案时还标了信息来源在第几页。核心看点基于Gemini Embedding 2模型，支持PDF、文档和图片中的视觉信息嵌入引入自定义元数据过滤，开发者可按部门、时间等维度为文件打标签支…

应用 2026年5月11日

DeepSeek 开启识图模式灰度测试，多模态视觉理解正式落地

核心看点 • DeepSeek-V4 发布后火速上线识图模式，多模态视觉理解能力正式落地• 移动端与网页版新增识图入口，基础视觉理解、描述、推理表现出色• 极端视觉场景下识别率仍有提升空间 DeepSeek 最近有点猛。刚发完 V4 大模型，转头就把多模态识图功能灰度测试给开了。这波操作什么意思呢？就是 DeepSeek 不仅能”看懂文字”了，还能&#…

模型框架 2026年4月30日

英伟达发布Nemotron 3 Nano Omni全模态模型：30B-A3B MoE架构，推理吞吐量暴涨9倍

核心看点全模态统一：Nemotron 3 Nano Omni将视频、音频、图像和文本推理集成于单一模型，替代传统碎片化的视觉-语音-语言模型链 30B-A3B混合MoE架构：结合Mamba层（提升序列与内存效率）和Transformer层（精准推理），内存和计算效率最高提升4倍吞吐量9倍领先：在视频推理任务中，相比其他开源全模态模型，有效系统容量最高提升约9.2倍；多文档推…

模型框架 2026年4月30日

英伟达发布 Nemotron 3 Nano Omni 全模态模型：30B-A3B 混合 MoE，吞吐量飙升 9.2 倍

英伟达近日宣布推出 Nemotron 3 Nano Omni，一款面向企业级 AI Agent 平台的开源全模态推理模型，可将视频、音频、图像和文本的多模态推理集成于单一模型中，替代传统碎片化的多模型链方案。核心看点 30B-A3B 混合 MoE 架构：结合 Mamba 层（高效序列处理）与 Transformer 层（精准推理），计算效率最高提升 4 倍吞吐量碾压级表现：…

模型框架 2026年4月30日

火山引擎Seedance 2.0全面开放API：文图音视频四模态输入，视频生成进入SOTA时代

火山引擎今日正式上线 Seedance 2.0 系列 API 服务，面向企业和个人开发者全面开放其视频生成能力。作为当前视频生成领域的全球 SOTA 模型，Seedance 2.0 的推出标志着 AI 视频创作正式进入多模态工业化应用阶段。核心看点四模态融合输入：支持文字、图片、音频、视频四种模态输入，集成业界最全面的多模态内容参考和编辑能力物理准确度大幅提升：在复杂交互…

应用 2026年4月14日