阿里国际数字商业团队推出重磅研究成果——Marco-Mini-Instruct模型,通过一项名为Upcycling的技术,将仅有0.6B参数的小模型”魔改”成拥有17B参数总量的MoE(混合专家)架构,而实际激活参数仅0.86B,推理效率极高,甚至可以在普通CPU上跑到30token/s,极大降低了本地部署门槛。
【AiBase提要】
- 🧠 通过Upcycling技术将Qwen3-0.6B-Base模型升级为MoE架构,实现高效训练
- ⚡ Marco-Mini-Instruct在CPU上可实现30token/s的推理速度,降低部署门槛
- 🚀 激活参数仅0.86B却超越4B级Dense模型,验证MoE架构潜力
黑科技揭秘:Upcycling 技术
传统的MoE模型训练需要大量计算资源,而阿里团队采用的Upcycling技术另辟蹊径:无需从头训练,而是将已经训练好的小模型”升级”为MoE架构。
具体来说,团队基于Qwen3-0.6B-Base模型,通过复制和重组专家层,成功构建了一个拥有17B参数总量、激活参数仅0.86B的MoE模型。这意味着:
- 训练成本大幅降低:无需消耗从头训练17B模型的海量算力
- 推理效率极高:实际参与计算的参数仅占总量的5%
- 性能不降反升:多项评测超越4B级Dense模型
CPU 30token/s:本地部署成为可能
最令人惊喜的是,Marco-Mini-Instruct 在普通CPU上就能实现30token/s的推理速度。这意味着:
- 消费级显卡甚至CPU即可运行
- 隐私敏感场景下的本地部署成为可能
- 边缘设备部署也具备可行性
性能超越4B Dense模型
尽管激活参数仅0.86B,Marco-Mini-Instruct 在多项基准测试中超越了4B级别的Dense模型,充分验证了MoE架构的巨大潜力。这一结果表明:模型架构的优化,比单纯”堆参数”更有效。
技术意义与展望
阿里这项研究为AI模型的小型化、高效化提供了新思路。在”大模型狂奔”的当下,如何让模型在保持性能的同时更加高效,是产业界和学术界共同关注的课题。Marco-Mini-Instruct 的出现,证明了一条”小而美”的技术路线同样走得通。
据悉,该模型的相关代码和论文已同步公开,开发者可前往官方页面获取:
🔗 https://www.modelscope.cn/branch/master.html
本文地址:https://www.163264.com/10822