语音

  • Google Gemini 3.5实时翻译上线:70种语言同声传译,语调语速全保留

    核心看点 6月9日,Google推出Gemini 3.5实时翻译模型,支持70多种语言的实时语音到语音翻译。它能自动检测语言、保留说话者的语调语速,让跨语言交流真正变得自然流畅。 详细解析 技术突破:不只是翻译,是”同声传译” 与传统翻译工具不同,Gemini 3.5实时翻译模型实现了: 自动语言检测:无需手动选择源语言和目标语言,模型自动识别70+种语…

    Google Gemini 2026年6月22日
  • Claude语音模式重磅升级:终于支持中文了,还新增按下通话模式

    核心看点 中文支持终于来了:Claude语音模式打破英语限制,新增中文、日语、西班牙语等7种语言 新增按下通话模式:除了原有的免提连续对话,现在可以按住说话、松开发送,更像微信语音 Claude Fable 5持续霸榜:Anthropic迄今最强模型,编程、科研、视觉理解全面领先 CEO自曝随时可被解雇:阿莫迪公开公司治理结构,长期利益信托有权撤换CEO 正文 6月18日消息,…

    anthropic-Claude 2026年6月20日
  • 豆包实时语音模型3.0 API 上线:从语音助手到语音 Agent 的关键一步

    核心看点 全双工对话:能同时听和说,像真人聊天那样可以随时插话,不再是"你说完我说"的回合制 端到端语音:语音进、语音出,不进行文本转录,响应更快、语气更自然 精准遵循 + 适时参与:一句话定规矩,比如"多人聊天时先别出声,聊到世界杯再加入",它会安静待命,等话题到了再主动接话 支持自定义工具调用:实时对话中直接调用工具完成任务——预定日…

    大模型 2026年6月19日
  • ChatGPT 语音将迎来最大规模升级:GPT-Bidi-1 模型曝光

    核心看点 GPT-Bidi-1 模型:OpenAI 正在筹备推出全新语音模型,将成为 ChatGPT 语音模式最大规模升级 双向语音交互:从名字推测,可能支持真正的双向实时语音对话 软银合作:OpenAI 与软银合作推出 AI 驱动网络安全解决方案 市场竞争加剧:ChatGPT 全球市场份额首次跌破 50% 详细解析 1. GPT-Bidi-1:语音交互的新突破 据科技媒体 t…

    openai-gpt 2026年6月17日
  • Google发布Gemini 3.5实时翻译模型:支持70+语言,保留原声语调

    核心看点 6月9日,Google推出Gemini 3.5实时翻译模型,支持语音到语音实时翻译 自动检测70多种语言,无需手动选择源语言 保留说话者语调、语速和音高,翻译更自然流畅 即日起在Google各产品中逐步推出,包括搜索、地图、Meet等 与Meta智能眼镜正面竞争:Google联合Warby Parker、Gentle Monster推出Gemini智能眼镜 详细解析 …

    Google-Gemini 2026年6月11日
  • Google Gemini 3.5 Live Translate 发布:70+语言实时语音翻译,说话者的语气都能保留

    Google 今天正式发布了 Gemini 3.5 Live Translate,这是目前最先进的实时语音翻译模型。和传统的文字翻译不同,它直接把语音实时翻译成另一种语言的语音,而且听起来像真人说话一样自然——你的语调、语速、音高,全都能保留。 核心看点 70+ 种语言自动检测:不需要手动设置,模型自己识别你在说什么语言 实时连续翻译:边听边译,只延迟几秒,不像传统系统要等你说…

    2026年6月10日
  • 阿里语音大模型拿下国产三冠王:ASR、Chat、TTS全部登顶

    阿里巴巴最近在语音AI领域搞了个大新闻。 他们家的语音大模型Fun-Realtime-TTS-Preview,在全球语音排行榜里冲到了第五、国产第一。更猛的是,在ASR(语音识别)、Chat(对话)、TTS(语音合成)三大核心赛道里,阿里语音模型全部拿到国内第一名,说是国产语音AI三冠王不为过。 Fun-Realtime-TTS-Preview的核心突破是实时化。以前的TTS模…

    2026年5月28日
  • OpenAI连发三款实时语音模型!推理对话、同声传译、实时转录全包了

    OpenAI今天一口气甩出三款实时语音模型,从智能对话到同声传译再到实时转录,直接把AI语音能力拉到了新高度。 核心看点 🎙️ GPT-Realtime-2:智商更高的语音AI 这是上一代实时语音模型的升级版,最大的亮点是具备了高级推理能力。不像普通的语音助手只会念稿子,GPT-Realtime-2能理解上下文、做逻辑推理,实现真正更自然的、有深度的实时对话。对于客服、智能助手…

    openai-gpt 2026年5月9日
  • OpenAI连发三款实时语音模型:推理对话、同声传译、会议转录全包了

    OpenAI最近一口气发布了三款新型实时语音模型,专门为开发者打造更先进的语音应用场景。这三款模型各有专攻,分别覆盖了推理对话、实时翻译和实时转录三大核心需求。 第一款是GPT-Realtime-2,主打高级推理对话。简单来说,它不只是听懂你在说什么,还能实时理解你的意图、上下文和隐含需求,然后给出更自然、更像真人的回应。以前语音助手经常给人{LQ}机械感{RQ},就是因为它们…

    应用 2026年5月8日
  • 谷歌发布最强TTS模型Gemini-TTS:支持近70种语言,提示词即可调控情感风格

    谷歌正式推出 Gemini-TTS 模型,在文本转语音(TTS)领域实现了重大突破。该模型可通过提示词直接调控语音的情感、节奏和风格,使合成语音更加自然细腻。 核心亮点 ✨ 提示词精确控制 Gemini-TTS 支持通过提示词精确控制语音的情感、节奏和风格。用户无需复杂的参数设置,只需用文字描述想要的语调、情感或风格,模型就能生成符合要求的语音输出。 🌍 近70种语言支持 该模…

    应用 2026年4月17日