谷歌推出 Gemini 1.5 Pro 公共预览版 ,支持处理音频

谷歌推出 Gemini 1.5 Pro 公共预览版 ,支持处理音频

根据提供的网页内容,以下是对谷歌Gemini 1.5 Pro模型免费开放的归纳总结:

1. **对外开放**:谷歌的最强大模型Gemini 1.5 Pro已经全面对外开放,目前完全免费供开发者和普通用户使用。

2. **使用方式**:开发者可以通过API调用的方式使用Gemini 1.5 Pro,而普通用户可以直接在谷歌AI Studio中体验该模型。

3. **音频理解功能**:Gemini 1.5 Pro首次增加了音频理解功能,能够直接解读音频内容,无需提供字幕文档,适用于财报电话会、电视节目、演讲等多种场景。

4. **上下文窗口**:模型具有100万的上下文窗口,可以处理最长11小时的音频和1小时的视频,大大扩展了其应用范围。

5. **API特点**:虽然音频理解功能尚未添加到API中,但预计很快会补上。目前,开发者可以在Google AI Studio中直接体验模型的其他功能。

6. **新功能/改进**:Gemini 1.5 Pro提供了包括系统指令、JSON模式输出和函数调用改进在内的新功能,以及对模型输出的更好控制。

7. **下一代文本嵌入模型**:开发者还可以通过API调用谷歌的下一代文本嵌入模型“text-embedding-004”(又名“Gecko”),该模型在MTEB基准上展现了卓越的检索性能。

8. **模型性能**:Gemini 1.5 Pro是Gemini Pro的升级版,支持多模态多语言,最大的亮点是其上下文窗口长度从128k扩展到了最多100万。

9. **实际应用示例**:文章中提到了多个实际应用示例,包括搜索阿波罗11号登月的电视转播信息、鉴别AI生成视频、分析电影脚本、以及修复代码bug等。

10. **速率限制**:目前Gemini 1.5 Pro的速率限制为每分钟5次请求,每分钟token为1000万个,每日请求量为2000个。

11. **开发者资源**:谷歌提供了相关链接,供开发者获取API密钥和了解更多信息,以便更好地利用Gemini 1.5 Pro模型。

通过这次开放,谷歌进一步推动了人工智能技术的普及和应用,为开发者和用户提供了强大的工具,以实现更高效和创新的解决方案。

谷歌推出 Gemini 1.5 Pro 公共预览版 ,支持处理音频

详情:

https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

本文地址:https://www.163264.com/6801

(1)
上一篇 2024年4月10日 下午7:00
下一篇 2024年4月10日 下午7:06

相关推荐