谷歌发布最强TTS模型Gemini-TTS：支持近70种语言，提示词即可调控情感风格

2026年4月17日上午12:05 • 应用 • 阅读 506

谷歌正式推出 Gemini-TTS 模型，在文本转语音（TTS）领域实现了重大突破。该模型可通过提示词直接调控语音的情感、节奏和风格，使合成语音更加自然细腻。

Table of Contents

核心亮点

Gemini-TTS 支持通过提示词精确控制语音的情感、节奏和风格。用户无需复杂的参数设置，只需用文字描述想要的语调、情感或风格，模型就能生成符合要求的语音输出。

该模型支持约70种语言，并能自动识别语种，无需手动标注。这为多语言内容的语音化提供了高效解决方案，大大降低了国际化内容的制作门槛。

Gemini-TTS 与同系列音频模型协同工作，能够：

Gemini-TTS 的强大能力可应用于多个领域：

Gemini-TTS 的发布标志着文本转语音技术进入提示词驱动的新时代。相比传统TTS系统需要复杂的声学参数调整，Gemini-TTS 通过自然语言描述即可实现精细控制，大幅降低了使用门槛，提升了创作灵活性。

来源：Google / AiBase

本文地址：https://www.163264.com/10932