TTS | 梭哈 AI

模型框架

阿里语音大模型拿下国产三冠王：ASR、Chat、TTS全部登顶

阿里巴巴最近在语音AI领域搞了个大新闻。他们家的语音大模型Fun-Realtime-TTS-Preview，在全球语音排行榜里冲到了第五、国产第一。更猛的是，在ASR（语音识别）、Chat（对话）、TTS（语音合成）三大核心赛道里，阿里语音模型全部拿到国内第一名，说是国产语音AI三冠王不为过。 Fun-Realtime-TTS-Preview的核心突破是实时化。以前的TTS模…

2026年5月28日

阶跃StepAudio 2.5 TTS登顶全球前三，中国大模型语音合成冲进第一梯队

阶跃星辰的StepAudio 2.5 TTS模型在Artificial Analysis Speech Arena的全球盲测榜单中位列前三。这个榜可不是随便排的——它用的是Elo评分机制，让真实用户盲听对比，拼的是”听起来像不像人”。核心看点 StepAudio 2.5 TTS在Speech Arena Leaderboard全球前三采用盲测Elo评…

模型框架 2026年5月11日

谷歌发布最强TTS模型Gemini-TTS：支持近70种语言，提示词即可调控情感风格

谷歌正式推出 Gemini-TTS 模型，在文本转语音（TTS）领域实现了重大突破。该模型可通过提示词直接调控语音的情感、节奏和风格，使合成语音更加自然细腻。核心亮点 ✨ 提示词精确控制 Gemini-TTS 支持通过提示词精确控制语音的情感、节奏和风格。用户无需复杂的参数设置，只需用文字描述想要的语调、情感或风格，模型就能生成符合要求的语音输出。 🌍 近70种语言支持该模…

应用 2026年4月17日

高度真实和自然的文本到语音（TTS）转换模型－MetaVoice-1B

该模型拥有1.2亿个参数，经过了10万小时的语音数据训练。 * 专注于英语情感演讲* 跨语言语音克隆* 支持美国和英国声音的零样本克隆* 支持长篇内容语音合成主要特点： 1、情感语音节奏和音调：MetaVoice-1B专注于英语语音的情感表达，提供流畅、自然的语音输出，无幻觉现象。 2、跨语言语音克隆：支持通过微调实现跨语言的声音克隆。例如，对于印度说话者，仅需1分钟的训练数…

模型框架 2024年2月10日