Google Gemini 3.5 Live Translate 发布：70+语言实时语音翻译，说话者的语气都能保留

Google 今天正式发布了 Gemini 3.5 Live Translate，这是目前最先进的实时语音翻译模型。和传统的文字翻译不同，它直接把语音实时翻译成另一种语言的语音，而且听起来像真人说话一样自然——你的语调、语速、音高，全都能保留。

Table of Contents

核心看点

70+ 种语言自动检测：不需要手动设置，模型自己识别你在说什么语言
实时连续翻译：边听边译，只延迟几秒，不像传统系统要等你说完
保留说话者特征：翻译后的语音保留你的语气、节奏、音高，不是冷冰冰的机器人声音
抗噪能力：在嘈杂环境中也能正常工作

三大应用场景

1. 开发者：API 已开放

今天起，开发者可以通过 Gemini Live API 和 Google AI Studio 接入。Agora、Fishjam、LiveKit 等实时音视频平台已经集成好了，不用自己搞复杂的流媒体基础设施。Grab（东南亚打车巨头）正在测试，让司机和乘客用各自的语言实时通话——Grab 每月有超过 1000 万次语音通话。

2. 企业：Google Meet 升级

Google Meet 的语音翻译即将大升级：语言支持从 5 种扩展到 70+ 种，任意两种语言之间都能互译（2000+ 种组合），不再局限于和英语互译。本月开始给部分 Google Workspace 企业客户 private preview。

3. 普通用户：Google Translate App

Android 和 iOS 的 Google Translate App 全球推送。连上耳机就能听到保留语气的翻译语音。Android 还有一个独占的”听筒模式”——把手机贴耳朵上，翻译语音直接从听筒播放，不用耳机也能私密收听。

和 Google 翻译有什么区别？

Google 翻译大家每天都在用，但 Gemini 3.5 Live Translate 是完全不同的东西：

传统翻译：你说完 → AI 翻译成文字 → AI 朗读出来（有停顿，像机器人）
Gemini 3.5 Live：你说着 → AI 同步翻译 → AI 同步朗读，保留你的语气、节奏

Google 自己说得很直白：”不像回合制系统要等说话者说完，3.5 Live Translate 持续生成语音，在等上下文提升质量和立即翻译保持同步之间找到平衡。”

安全：所有 AI 音频都有水印

所有 Gemini 3.5 Live Translate 生成的音频都嵌入了 SynthID 水印——这是一种不可感知的水印，用于识别 AI 生成内容，防止被用来制造虚假信息。

一句话总结

Google 把 20 年的翻译技术积累做成了实时语音翻译，而且这次是真的”同声传译”级别——不是等你说完再翻，而是边说边翻，语气都给你保留。开发者、企业、普通用户都能用，今天开始 rollout。

来源：Google AI Blog, 2026-06-09

本文地址：https://www.163264.com/12798