谷歌推出 Gemini 1.5 Pro 公共预览版，支持处理音频

根据提供的网页内容，以下是对谷歌Gemini 1.5 Pro模型免费开放的归纳总结：

1. **对外开放**：谷歌的最强大模型Gemini 1.5 Pro已经全面对外开放，目前完全免费供开发者和普通用户使用。

2. **使用方式**：开发者可以通过API调用的方式使用Gemini 1.5 Pro，而普通用户可以直接在谷歌AI Studio中体验该模型。

3. **音频理解功能**：Gemini 1.5 Pro首次增加了音频理解功能，能够直接解读音频内容，无需提供字幕文档，适用于财报电话会、电视节目、演讲等多种场景。

4. **上下文窗口**：模型具有100万的上下文窗口，可以处理最长11小时的音频和1小时的视频，大大扩展了其应用范围。

5. **API特点**：虽然音频理解功能尚未添加到API中，但预计很快会补上。目前，开发者可以在Google AI Studio中直接体验模型的其他功能。

6. **新功能/改进**：Gemini 1.5 Pro提供了包括系统指令、JSON模式输出和函数调用改进在内的新功能，以及对模型输出的更好控制。

7. **下一代文本嵌入模型**：开发者还可以通过API调用谷歌的下一代文本嵌入模型“text-embedding-004”（又名“Gecko”），该模型在MTEB基准上展现了卓越的检索性能。

8. **模型性能**：Gemini 1.5 Pro是Gemini Pro的升级版，支持多模态多语言，最大的亮点是其上下文窗口长度从128k扩展到了最多100万。

9. **实际应用示例**：文章中提到了多个实际应用示例，包括搜索阿波罗11号登月的电视转播信息、鉴别AI生成视频、分析电影脚本、以及修复代码bug等。

10. **速率限制**：目前Gemini 1.5 Pro的速率限制为每分钟5次请求，每分钟token为1000万个，每日请求量为2000个。

11. **开发者资源**：谷歌提供了相关链接，供开发者获取API密钥和了解更多信息，以便更好地利用Gemini 1.5 Pro模型。

通过这次开放，谷歌进一步推动了人工智能技术的普及和应用，为开发者和用户提供了强大的工具，以实现更高效和创新的解决方案。

详情：

本文地址：https://www.163264.com/6801

谷歌推出 Gemini 1.5 Pro 公共预览版 ，支持处理音频