
阿里巴巴最近在语音AI领域搞了个大新闻。
他们家的语音大模型Fun-Realtime-TTS-Preview,在全球语音排行榜里冲到了第五、国产第一。更猛的是,在ASR(语音识别)、Chat(对话)、TTS(语音合成)三大核心赛道里,阿里语音模型全部拿到国内第一名,说是国产语音AI三冠王不为过。
Fun-Realtime-TTS-Preview的核心突破是实时化。以前的TTS模型延迟较高,生成的语音有”机器感”。阿里的这个模型做到了毫秒级延迟,同时保持了高自然度——简单说就是,反应快,听起来更像人。
这个突破的应用场景很广:智能客服、语音助手、实时翻译、虚拟人……任何需要语音交互的产品都能受益。
语音AI这个赛道,国内外竞争都很激烈。OpenAI的GPT-4o语音模式、Google的语音技术都在快速迭代。阿里这次拿到国产第一,说明国产语音AI的整体水平已经站到了国际前沿,不再是”me too”的跟随状态。
下一步看点在落地——技术指标是一回事,真正把体验做好、把场景做深,才是硬仗。
本文地址:https://www.163264.com/12391

