moe
-
阿里黑科技炸场!0.6B 小模型”魔改”成 17B MoE,激活参数仅 5%,CPU 直接跑 30token/s
阿里国际数字商业团队推出重磅研究成果——Marco-Mini-Instruct模型,通过一项名为Upcycling的技术,将仅有0.6B参数的小模型”魔改”成拥有17B参数总量的MoE(混合专家)架构,而实际激活参数仅0.86B,推理效率极高,甚至可以在普通CPU上跑到30token/s,极大降低了本地部署门槛。 【AiBase提要】 🧠 通过Upcyc…