网易有道开源 Confucius4-TTS:零样本跨语言声音克隆,14种语言无口音迁移
网易有道最新开源了 Confucius4-TTS,一套基于「语音编码器 + 大语言模型」架构的文本转语音系统。核心亮点是零样本跨语言声音克隆——给一段参考音频,无需文本标注,就能让同一个人开口说14种语言,音色保持一致,情感也能同步迁移。
**核心能力**
– **免文本参考克隆**:不需要参考音频的文本标注,直接上传音频就能克隆音色,降低了使用门槛
– **14种语言覆盖**:中文、英语、日语、韩语、德语、法语、意大利语、西班牙语、俄语、葡萄牙语、泰语、印尼语、马来语、越南语
– **无口音迁移**:跨语言合成时没有母语口音残留,听起来像本地人
– **情感同步迁移**:参考音频里的情绪起伏、语气语调能同步迁移到生成的外语语音中
**技术架构**
Speech Encoder + LLM 的级联架构,语音编码器负责提取音色和情感特征,大语言模型负责生成目标语言的语音内容。这种设计让跨语言音色重建和情感保留都能做到高保真。
**实测表现**
在 CV3-eval Cross-lingual、X-Voice Benchmark、Seed-TTS-eval 以及 MiniMax-Multilingual-Test 等多个行业测试集上完成了零样本性能评估。官方数据:3秒内完成原声复制,克隆准确度超97%,音色相似度达85%以上。
**适用场景**
新闻播报、客服语音、有声书、多语言内容本地化——凡是需要同一个人用多种语言说话、且要求音色统一的场景都适用。
**开源地址**
– GitHub: https://github.com/netease-youdao/Confucius4-TTS
– HuggingFace: https://huggingface.co/netease-youdao/Confucius4
– 在线试用: https://confucius4-tts.youdao.com/gradio
本文地址:https://www.163264.com/13101


微信扫一扫,鼓励一下~