蚂蚁集团百灵大模型开源 Ling-2.6-flash：104B参数仅激活7.4B，推理速度最高340 tokens/s

蚂蚁集团旗下百灵大模型今日宣布正式开源 Ling-2.6-flash，这是一款总参数量 104B、激活参数仅 7.4B 的 Instruct 模型，以极低的推理成本实现了令人瞩目的性能表现。

这款模型两周前曾以 Elephant Alpha 的匿名身份登陆 OpenRouter，通过收集真实开发者反馈进行了多轮优化。官方表示，团队重点改善了中英文自然切换能力，并提升了主流 Coding 框架的适配效果。

值得一提的是，Ling-2.6-flash 引入了混合线性架构，从底层优化计算效率。这意味着在同等硬件条件下能跑出更高的吞吐量——对于需要大批量处理任务的团队来说，这个优势相当可观。

在 Agent 应用大爆发的当下，蚂蚁在工具调用、多步规划和任务执行能力上下了不少功夫。从评测结果来看，即便面对激活参数更大的竞品模型，Ling-2.6-flash 依然不落下风，甚至拿下了多项 SOTA。

目前模型权重已在 Hugging Face 和 ModelScope 同步开源。无论你是想本地部署做推理服务，还是在资源受限的边缘端跑轻量化模型，BF16/FP8/INT4 三档量化版本基本覆盖了主流场景。对于关注模型”智效比”的开发者来说，这应该是近期值得认真看看的候选之一。

本文地址：https://www.163264.com/11325