Google升级Gemini API文件搜索:多模态RAG能力大跨越,企业级AI检索精度飙升

Google最近升级了Gemini API的文件搜索功能,这次升级的核心是引入多模态RAG(检索增强生成)能力。说白了就是:你现在不仅能搜文字,还能搜PDF里的图表、文档里的图片,AI给出答案时还标了信息来源在第几页。

核心看点

  • 基于Gemini Embedding 2模型,支持PDF、文档和图片中的视觉信息嵌入
  • 引入自定义元数据过滤,开发者可按部门、时间等维度为文件打标签
  • 支持页面级引用,AI生成答案时明确标注信息来源的具体页码

多模态嵌入什么意思?

过去企业做知识库搜索,AI能看懂文字就不错了。但很多重要信息藏在图片里——产品说明书上的拆解图、合同里的手写批注、PPT里的流程图。Gemini Embedding 2模型可以同时处理文本和视觉信息,这意味着PDF中的图表、扫描件都能被AI准确理解并检索。

自定义元数据:精细化搜索

新功能允许开发者给文件添加自定义标签,比如按”财务部””2026年Q1″”合规文档”分类。搜索时加上这些过滤条件,结果精准度大幅提升。对于文件堆积如山的企业用户来说,这比关键词搜索好用太多了。

页码引用:告别AI”猜答案”

最实用的改进可能就是这个——AI给出答案时直接引用到具体页数。做研究、审合同、查报告的场景下,你能点过去核实AI说的对不对。信息透明度的提升,让企业真正敢把AI用到正式工作流里。

本文地址:https://www.163264.com/11575

(0)
上一篇 1天前
下一篇 1天前

相关推荐