阿里通义开源语音识别大模型Fun-ASR1.5：30种语言+汉语七大方言，古诗词吟诵也能精准转写

阿里通义实验室刚放出一款语音识别领域的「重磅炸弹」——Fun-ASR1.5。这款开源大模型用一套统一的架构，覆盖了30种语言、汉语七大方言体系及20多种地方口音。更离谱的是，连古诗词吟诵这种高难度场景，它也能精准转写。

核心看点

在方言识别这个公认的老大难问题上，Fun-ASR1.5的数据相当亮眼。典型方言场景下字错误率相对下降56.2%，已经有5种方言的识别准确率突破90%，15种超过80%。对于语音技术来说，这意味着从「能用」跨进了「好用」的门槛。

更实用的是它的「智能语音内容整理」能力。开会录了俩小时录音？它能自动给长句加标点，把口语化的「三点十五」转成「15:15」，把「一万两千八」转成「12,800元」。会议纪要、采访录音、司法笔录这类场景，人工校对的工程量能直接砍掉一大半。

开源策略也很值得一提。用户既可以通过阿里云百炼平台调API接入自己的业务系统，也可以直接去魔搭社区免费在线体验全部能力。这种「商用+开源」的双轨模式，正在成为国产大模型技术扩散的标准打法。

语音识别是AI落地最早、渗透最深的基础能力之一。Fun-ASR1.5在方言和古诗词这些「硬骨头」上的突破，意味着这项技术正在从通用场景走向更精细、更本土化的应用深水区。

本文地址：https://www.163264.com/10999