Google升级Gemini API文件搜索：多模态RAG能力大跨越，企业级AI检索精度飙升

2026年5月11日下午8:31 • 应用 • 阅读 372

Google最近升级了Gemini API的文件搜索功能，这次升级的核心是引入多模态RAG（检索增强生成）能力。说白了就是：你现在不仅能搜文字，还能搜PDF里的图表、文档里的图片，AI给出答案时还标了信息来源在第几页。

多模态嵌入什么意思？

过去企业做知识库搜索，AI能看懂文字就不错了。但很多重要信息藏在图片里——产品说明书上的拆解图、合同里的手写批注、PPT里的流程图。Gemini Embedding 2模型可以同时处理文本和视觉信息，这意味着PDF中的图表、扫描件都能被AI准确理解并检索。

自定义元数据：精细化搜索

新功能允许开发者给文件添加自定义标签，比如按”财务部””2026年Q1″”合规文档”分类。搜索时加上这些过滤条件，结果精准度大幅提升。对于文件堆积如山的企业用户来说，这比关键词搜索好用太多了。

页码引用：告别AI”猜答案”

最实用的改进可能就是这个——AI给出答案时直接引用到具体页数。做研究、审合同、查报告的场景下，你能点过去核实AI说的对不对。信息透明度的提升，让企业真正敢把AI用到正式工作流里。

本文地址：https://www.163264.com/11575