蚂蚁集团百灵大模型开源 Ling-2.6-flash:104B参数仅激活7.4B,推理速度最高340 tokens/s

蚂蚁集团旗下百灵大模型今日宣布正式开源 Ling-2.6-flash,这是一款总参数量 104B、激活参数仅 7.4B 的 Instruct 模型,以极低的推理成本实现了令人瞩目的性能表现。

核心看点

  • 104B 总参、7.4B 激活:采用混合专家(MoE)架构,大幅降低推理资源需求
  • 推理速度达 340 tokens/s:在 4 卡 H20 环境下实现极速推理,Prefill 吞吐达到竞品 2.2 倍
  • Token 效率惊人:在 Artificial Analysis 完整评测中仅消耗 15M tokens,约为同类模型的 1/10
  • Agent 场景专项优化:在 BFCL-V4、SWE-bench Verified 等评测中达到 SOTA 级别
  • 多版本同步开放:提供 BF16、FP8、INT4 多种量化版本,适配不同部署场景

这款模型两周前曾以 Elephant Alpha 的匿名身份登陆 OpenRouter,通过收集真实开发者反馈进行了多轮优化。官方表示,团队重点改善了中英文自然切换能力,并提升了主流 Coding 框架的适配效果。

值得一提的是,Ling-2.6-flash 引入了混合线性架构,从底层优化计算效率。这意味着在同等硬件条件下能跑出更高的吞吐量——对于需要大批量处理任务的团队来说,这个优势相当可观。

在 Agent 应用大爆发的当下,蚂蚁在工具调用、多步规划和任务执行能力上下了不少功夫。从评测结果来看,即便面对激活参数更大的竞品模型,Ling-2.6-flash 依然不落下风,甚至拿下了多项 SOTA。

目前模型权重已在 Hugging Face 和 ModelScope 同步开源。无论你是想本地部署做推理服务,还是在资源受限的边缘端跑轻量化模型,BF16/FP8/INT4 三档量化版本基本覆盖了主流场景。对于关注模型”智效比”的开发者来说,这应该是近期值得认真看看的候选之一。

开源链接:
Hugging Face:https://huggingface.co/inclusionAI/Ling-2.6-flash
ModelScope:https://www.modelscope.cn/models/inclusionAI/Ling-2.6-flash

本文地址:https://www.163264.com/11325

(0)
上一篇 10小时前
下一篇 6小时前

相关推荐