网易有道开源 Confucius4-TTS：零样本跨语言声音克隆，14种语言无口音迁移

网易有道最新开源了 Confucius4-TTS，一套基于「语音编码器 + 大语言模型」架构的文本转语音系统。核心亮点是零样本跨语言声音克隆——给一段参考音频，无需文本标注，就能让同一个人开口说14种语言，音色保持一致，情感也能同步迁移。

**核心能力**

– **免文本参考克隆**：不需要参考音频的文本标注，直接上传音频就能克隆音色，降低了使用门槛
– **14种语言覆盖**：中文、英语、日语、韩语、德语、法语、意大利语、西班牙语、俄语、葡萄牙语、泰语、印尼语、马来语、越南语
– **无口音迁移**：跨语言合成时没有母语口音残留，听起来像本地人
– **情感同步迁移**：参考音频里的情绪起伏、语气语调能同步迁移到生成的外语语音中

**技术架构**

Speech Encoder + LLM 的级联架构，语音编码器负责提取音色和情感特征，大语言模型负责生成目标语言的语音内容。这种设计让跨语言音色重建和情感保留都能做到高保真。

**实测表现**

在 CV3-eval Cross-lingual、X-Voice Benchmark、Seed-TTS-eval 以及 MiniMax-Multilingual-Test 等多个行业测试集上完成了零样本性能评估。官方数据：3秒内完成原声复制，克隆准确度超97%，音色相似度达85%以上。

**适用场景**

新闻播报、客服语音、有声书、多语言内容本地化——凡是需要同一个人用多种语言说话、且要求音色统一的场景都适用。

**开源地址**
– GitHub: https://github.com/netease-youdao/Confucius4-TTS
– HuggingFace: https://huggingface.co/netease-youdao/Confucius4
– 在线试用: https://confucius4-tts.youdao.com/gradio

本文地址：https://www.163264.com/13101