4月9日,字节跳动正式推出原生全双工语音大模型 Seeduplex,并已在豆包 App 全量落地。这也是行业内首个规模化应用的全双工语音大模型。
核心看点
- 打破传统 AI 语音”一问一答”的半双工模式,实现真正的边听边说
- 误回复率和误打断率相比半双工模型减少一半
- 抢话比例下降 40%,对话节奏更接近真人交流
- 对话流畅度 MOS 分提升 12%,整体通话满意度提升 8.34%
全双工:AI语音交互的代际升级
过去我们与 AI 语音助手对话,基本遵循”你说完、它再说”的轮替模式。这种半双工交互虽然稳定,但离自然对话相去甚远——真人打电话时,常常会边听边回应、适时插话、甚至在对方停顿时快速接话。
Seeduplex 的核心突破,正是改变了”听完再说”的交互模式,实现了听与说的同步处理。
两大核心能力提升
精准抗干扰。模型具备持续的倾听能力,能更好地理解用户所处的声学环境,准确忽略背景噪音和无关对话。在复杂场景下,误回复率和误打断率相比半双工模型减少了一半。
动态判停。模型能联合语音和语义特征,综合判断用户意图,实现更自然的对话节奏控制。面对用户的思考犹豫,它能耐心倾听;在用户说完后,又能快速响应。相比半双工模型,抢话比例下降了 40%,判停表现提升了 8%。
工程落地:支持亿级用户
该模型依托字节跳动自研 LLM 底座,通过架构创新、海量语音预训练、推理优化及稳定性保障,有效解决了高并发场景下的卡顿问题。目前用户更新豆包 App 至最新版,在”打电话”语音通话界面即可体验。
从实际体验数据来看,Seeduplex 的打断响应表现甚至已经略优于真人对话的平均水平。人机语音交互正在无限接近自然交流状态。
本文地址:https://www.163264.com/10842