阿里通义实验室刚放出一款语音识别领域的「重磅炸弹」——Fun-ASR1.5。这款开源大模型用一套统一的架构,覆盖了30种语言、汉语七大方言体系及20多种地方口音。更离谱的是,连古诗词吟诵这种高难度场景,它也能精准转写。
核心看点
- 单模型统一架构,覆盖30种语言、汉语七大方言体系及20余种地方口音
- 典型方言场景字错误率(CER)相对下降56.2%,5种方言识别准确率突破90%
- 支持古诗词吟诵转写,具备智能语音内容整理能力
- 自动添加标点、转换口语化数字/日期/金额/手机号为标准书面格式
- 可通过阿里云百炼平台API调用,也可在魔搭社区免费在线体验
在方言识别这个公认的老大难问题上,Fun-ASR1.5的数据相当亮眼。典型方言场景下字错误率相对下降56.2%,已经有5种方言的识别准确率突破90%,15种超过80%。对于语音技术来说,这意味着从「能用」跨进了「好用」的门槛。
更实用的是它的「智能语音内容整理」能力。开会录了俩小时录音?它能自动给长句加标点,把口语化的「三点十五」转成「15:15」,把「一万两千八」转成「12,800元」。会议纪要、采访录音、司法笔录这类场景,人工校对的工程量能直接砍掉一大半。
开源策略也很值得一提。用户既可以通过阿里云百炼平台调API接入自己的业务系统,也可以直接去魔搭社区免费在线体验全部能力。这种「商用+开源」的双轨模式,正在成为国产大模型技术扩散的标准打法。
语音识别是AI落地最早、渗透最深的基础能力之一。Fun-ASR1.5在方言和古诗词这些「硬骨头」上的突破,意味着这项技术正在从通用场景走向更精细、更本土化的应用深水区。
本文地址:https://www.163264.com/10999