语音

  • OpenAI连发三款实时语音模型!推理对话、同声传译、实时转录全包了

    OpenAI今天一口气甩出三款实时语音模型,从智能对话到同声传译再到实时转录,直接把AI语音能力拉到了新高度。 核心看点 🎙️ GPT-Realtime-2:智商更高的语音AI 这是上一代实时语音模型的升级版,最大的亮点是具备了高级推理能力。不像普通的语音助手只会念稿子,GPT-Realtime-2能理解上下文、做逻辑推理,实现真正更自然的、有深度的实时对话。对于客服、智能助手…

    openai-gpt 2026年5月9日
  • OpenAI连发三款实时语音模型:推理对话、同声传译、会议转录全包了

    OpenAI最近一口气发布了三款新型实时语音模型,专门为开发者打造更先进的语音应用场景。这三款模型各有专攻,分别覆盖了推理对话、实时翻译和实时转录三大核心需求。 第一款是GPT-Realtime-2,主打高级推理对话。简单来说,它不只是听懂你在说什么,还能实时理解你的意图、上下文和隐含需求,然后给出更自然、更像真人的回应。以前语音助手经常给人{LQ}机械感{RQ},就是因为它们…

    应用 2026年5月8日
  • 谷歌发布最强TTS模型Gemini-TTS:支持近70种语言,提示词即可调控情感风格

    谷歌正式推出 Gemini-TTS 模型,在文本转语音(TTS)领域实现了重大突破。该模型可通过提示词直接调控语音的情感、节奏和风格,使合成语音更加自然细腻。 核心亮点 ✨ 提示词精确控制 Gemini-TTS 支持通过提示词精确控制语音的情感、节奏和风格。用户无需复杂的参数设置,只需用文字描述想要的语调、情感或风格,模型就能生成符合要求的语音输出。 🌍 近70种语言支持 该模…

    应用 2026年4月17日
  • 字节跳动发布全双工语音大模型Seeduplex,豆包实现”边听边说”

    语音交互正在迎来一场静默的革命。近日,字节跳动正式公布新一代全双工语音交互系统Seeduplex,并将其率先接入豆包。这套系统最大的突破在于:它打破了传统语音助手”你说完、我再答”的单轮逻辑,实现了真正的边听边说,让人和 AI 的对话节奏更接近真人打电话。 核心看点 全双工架构:听说同步处理,不再是”听完再说”,对话中断感明显降低…

    模型框架 2026年4月13日
  • 字节跳动发布全双工语音大模型Seeduplex:打电话能边听边讲

    4月9日,字节跳动正式推出原生全双工语音大模型 Seeduplex,并已在豆包 App 全量落地。这也是行业内首个规模化应用的全双工语音大模型。 核心看点 打破传统 AI 语音”一问一答”的半双工模式,实现真正的边听边说 误回复率和误打断率相比半双工模型减少一半 抢话比例下降 40%,对话节奏更接近真人交流 对话流畅度 MOS 分提升 12%,整体通话满…

    模型框架 2026年4月11日
  • AI 行业日报 · 2026年3月7日 | OpenAI双向语音模型 美团上线OpenClaw服务

    📰 AI 行业日报 · 2026年3月7日 📅 2026年3月7日 | 聚焦全球AI行业最新动态 🎯 今日核心要点 🎙️ 双向语音模型 OpenAI开发BiDi,被打断也能秒回 ⭐⭐⭐⭐⭐ 🔧 OpenClaw服务 美团联合联想百应上线远程部署 ⭐⭐⭐⭐ 🔒 AI安全审计 OpenAI推出Codex Security工具 ⭐⭐⭐⭐ 📧 Google Workspace 谷歌开源…

    2026年3月7日
  • 新发布的开源语音模型 Zonos

    Zonos 被称为最强开源语音模型,其语音生成质量非常高,并且有中文版本。它包含两种 1.6B 模型,分别是 transformer 和 SSM。可以使用 5 到 30 秒的语音进行高保真语音克隆。还能够调节速度、音高、音频质量和情绪。通过添加文本和音频前缀,可以实现更丰富的说话人匹配效果。在 RTX 4090 显卡上运行时,实时率约为 2 倍。 详情: https://www…

    2025年2月11日