阿里语音大模型拿下国产三冠王:ASR、Chat、TTS全部登顶

阿里语音大模型拿下国产三冠王:ASR、Chat、TTS全部登顶

阿里巴巴最近在语音AI领域搞了个大新闻。

他们家的语音大模型Fun-Realtime-TTS-Preview,在全球语音排行榜里冲到了第五、国产第一。更猛的是,在ASR(语音识别)、Chat(对话)、TTS(语音合成)三大核心赛道里,阿里语音模型全部拿到国内第一名,说是国产语音AI三冠王不为过。

Fun-Realtime-TTS-Preview的核心突破是实时化。以前的TTS模型延迟较高,生成的语音有”机器感”。阿里的这个模型做到了毫秒级延迟,同时保持了高自然度——简单说就是,反应快,听起来更像人。

这个突破的应用场景很广:智能客服、语音助手、实时翻译、虚拟人……任何需要语音交互的产品都能受益。

语音AI这个赛道,国内外竞争都很激烈。OpenAI的GPT-4o语音模式、Google的语音技术都在快速迭代。阿里这次拿到国产第一,说明国产语音AI的整体水平已经站到了国际前沿,不再是”me too”的跟随状态。

下一步看点在落地——技术指标是一回事,真正把体验做好、把场景做深,才是硬仗。

本文地址:https://www.163264.com/12391

(0)
上一篇 4小时前
下一篇 4小时前

相关推荐