
Google 今天正式发布了 Gemini 3.5 Live Translate,这是目前最先进的实时语音翻译模型。和传统的文字翻译不同,它直接把语音实时翻译成另一种语言的语音,而且听起来像真人说话一样自然——你的语调、语速、音高,全都能保留。
核心看点
- 70+ 种语言自动检测:不需要手动设置,模型自己识别你在说什么语言
- 实时连续翻译:边听边译,只延迟几秒,不像传统系统要等你说完
- 保留说话者特征:翻译后的语音保留你的语气、节奏、音高,不是冷冰冰的机器人声音
- 抗噪能力:在嘈杂环境中也能正常工作
三大应用场景
1. 开发者:API 已开放
今天起,开发者可以通过 Gemini Live API 和 Google AI Studio 接入。Agora、Fishjam、LiveKit 等实时音视频平台已经集成好了,不用自己搞复杂的流媒体基础设施。Grab(东南亚打车巨头)正在测试,让司机和乘客用各自的语言实时通话——Grab 每月有超过 1000 万次语音通话。
2. 企业:Google Meet 升级
Google Meet 的语音翻译即将大升级:语言支持从 5 种扩展到 70+ 种,任意两种语言之间都能互译(2000+ 种组合),不再局限于和英语互译。本月开始给部分 Google Workspace 企业客户 private preview。
3. 普通用户:Google Translate App
Android 和 iOS 的 Google Translate App 全球推送。连上耳机就能听到保留语气的翻译语音。Android 还有一个独占的”听筒模式”——把手机贴耳朵上,翻译语音直接从听筒播放,不用耳机也能私密收听。
和 Google 翻译有什么区别?
Google 翻译大家每天都在用,但 Gemini 3.5 Live Translate 是完全不同的东西:
- 传统翻译:你说完 → AI 翻译成文字 → AI 朗读出来(有停顿,像机器人)
- Gemini 3.5 Live:你说着 → AI 同步翻译 → AI 同步朗读,保留你的语气、节奏
Google 自己说得很直白:”不像回合制系统要等说话者说完,3.5 Live Translate 持续生成语音,在等上下文提升质量和立即翻译保持同步之间找到平衡。”
安全:所有 AI 音频都有水印
所有 Gemini 3.5 Live Translate 生成的音频都嵌入了 SynthID 水印——这是一种不可感知的水印,用于识别 AI 生成内容,防止被用来制造虚假信息。
一句话总结
Google 把 20 年的翻译技术积累做成了实时语音翻译,而且这次是真的”同声传译”级别——不是等你说完再翻,而是边说边翻,语气都给你保留。开发者、企业、普通用户都能用,今天开始 rollout。
来源:Google AI Blog, 2026-06-09
本文地址:https://www.163264.com/12798


微信扫一扫,鼓励一下~