阿里黑科技炸场！0.6B 小模型”魔改”成 17B MoE，激活参数仅 5%，CPU 直接跑 30token/s

阿里国际数字商业团队推出重磅研究成果——Marco-Mini-Instruct模型，通过一项名为Upcycling的技术，将仅有0.6B参数的小模型”魔改”成拥有17B参数总量的MoE（混合专家）架构，而实际激活参数仅0.86B，推理效率极高，甚至可以在普通CPU上跑到30token/s，极大降低了本地部署门槛。

Table of Contents

【AiBase提要】

🧠 通过Upcycling技术将Qwen3-0.6B-Base模型升级为MoE架构，实现高效训练
⚡ Marco-Mini-Instruct在CPU上可实现30token/s的推理速度，降低部署门槛
🚀 激活参数仅0.86B却超越4B级Dense模型，验证MoE架构潜力

黑科技揭秘：Upcycling 技术

传统的MoE模型训练需要大量计算资源，而阿里团队采用的Upcycling技术另辟蹊径：无需从头训练，而是将已经训练好的小模型”升级”为MoE架构。

具体来说，团队基于Qwen3-0.6B-Base模型，通过复制和重组专家层，成功构建了一个拥有17B参数总量、激活参数仅0.86B的MoE模型。这意味着：

训练成本大幅降低：无需消耗从头训练17B模型的海量算力
推理效率极高：实际参与计算的参数仅占总量的5%
性能不降反升：多项评测超越4B级Dense模型

CPU 30token/s：本地部署成为可能

最令人惊喜的是，Marco-Mini-Instruct 在普通CPU上就能实现30token/s的推理速度。这意味着：

消费级显卡甚至CPU即可运行
隐私敏感场景下的本地部署成为可能
边缘设备部署也具备可行性

性能超越4B Dense模型

尽管激活参数仅0.86B，Marco-Mini-Instruct 在多项基准测试中超越了4B级别的Dense模型，充分验证了MoE架构的巨大潜力。这一结果表明：模型架构的优化，比单纯”堆参数”更有效。

技术意义与展望

阿里这项研究为AI模型的小型化、高效化提供了新思路。在”大模型狂奔”的当下，如何让模型在保持性能的同时更加高效，是产业界和学术界共同关注的课题。Marco-Mini-Instruct 的出现，证明了一条”小而美”的技术路线同样走得通。

据悉，该模型的相关代码和论文已同步公开，开发者可前往官方页面获取：
🔗 https://www.modelscope.cn/branch/master.html

本文地址：https://www.163264.com/10822