蚂蚁集团百灵大模型Ling-2.6-flash正式开源：104B参数，推理速度340 tokens/s

核心看点

104B总参数-7.4B激活参数：采用混合线性架构，推理速度在4卡H20条件下最快达340 tokens/s，Prefill吞吐达Nemotron-3-Super的2.2倍
极致Token效率：在Artificial Analysis评测中，仅消耗15M tokens完成评测，约为同类模型的1/10，大幅降低商用成本
多精度版本开源：同步提供BF16、FP8、INT4等多个精度版本，适配不同硬件环境和部署需求
Agent场景定向增强：在BFCL-V4、SWE-bench Verified、TAU2-bench等Agent评测中表现达到SOTA级别

4月29日，蚂蚁集团旗下的百灵大模型正式宣布开源Ling-2.6-flash，一款面向Agent场景深度优化的推理模型。

这款模型总参数量达104B，但激活参数仅7.4B，属于典型的MoE架构。有趣的是，它两周前曾以”Elephant Alpha”的匿名身份登陆OpenRouter，在开发者社区中引发了不少关注。现在蚂蚁正式公开身份并宣布开源。

官方表示，在过去两周里，团队持续收集来自开发者的真实反馈，针对使用体验进行了多轮优化，包括改善中英文自然切换能力、提升主流Coding框架中的适配效果等。

Ling-2.6-flash的核心亮点集中在三个方面：

1. 混合线性架构 —— 从底层优化计算效率，4卡H20环境下推理速度最高可达340 tokens/s。这意味着一次典型的交互请求可以在毫秒级内完成。

2. Token效率优化 —— 在训练过程中对Token效率进行了针对性校准，力求以更精简的输出完成既定目标。在Artificial Analysis的完整评测中，Ling-2.6-flash仅消耗15M tokens，约为同等竞品的1/10。对于需要大规模部署的商用场景来说，这意味着实打实的成本优势。

3. Agent能力定向增强 —— 针对当前需求最旺盛的Agent应用场景，在工具调用、多步规划与任务执行能力上持续打磨。在BFCL-V4、TAU2-bench、SWE-bench Verified等评测中，即便面对激活参数更大的模型，依然能取得相近甚至SOTA级别的表现。

目前模型已在Hugging Face和ModelScope双平台开源，开发者可根据自身硬件环境选择不同精度版本进行部署。

开源地址：
Hugging Face | ModelScope

本文地址：https://www.163264.com/11333

蚂蚁集团百灵大模型Ling-2.6-flash正式开源：104B参数，推理速度340 tokens/s

核心看点

相关推荐