蚂蚁集团百灵大模型Ling-2.6-flash正式开源:104B参数,推理速度340 tokens/s

核心看点

  • 104B总参数-7.4B激活参数:采用混合线性架构,推理速度在4卡H20条件下最快达340 tokens/s,Prefill吞吐达Nemotron-3-Super的2.2倍
  • 极致Token效率:在Artificial Analysis评测中,仅消耗15M tokens完成评测,约为同类模型的1/10,大幅降低商用成本
  • 多精度版本开源同步提供BF16、FP8、INT4等多个精度版本,适配不同硬件环境和部署需求
  • Agent场景定向增强:在BFCL-V4、SWE-bench Verified、TAU2-bench等Agent评测中表现达到SOTA级别

4月29日,蚂蚁集团旗下的百灵大模型正式宣布开源Ling-2.6-flash,一款面向Agent场景深度优化的推理模型。

这款模型总参数量达104B,但激活参数仅7.4B,属于典型的MoE架构。有趣的是,它两周前曾以”Elephant Alpha”的匿名身份登陆OpenRouter,在开发者社区中引发了不少关注。现在蚂蚁正式公开身份并宣布开源。

官方表示,在过去两周里,团队持续收集来自开发者的真实反馈,针对使用体验进行了多轮优化,包括改善中英文自然切换能力、提升主流Coding框架中的适配效果等。

Ling-2.6-flash的核心亮点集中在三个方面:

1. 混合线性架构 —— 从底层优化计算效率,4卡H20环境下推理速度最高可达340 tokens/s。这意味着一次典型的交互请求可以在毫秒级内完成。

2. Token效率优化 —— 在训练过程中对Token效率进行了针对性校准,力求以更精简的输出完成既定目标。在Artificial Analysis的完整评测中,Ling-2.6-flash仅消耗15M tokens,约为同等竞品的1/10。对于需要大规模部署的商用场景来说,这意味着实打实的成本优势。

3. Agent能力定向增强 —— 针对当前需求最旺盛的Agent应用场景,在工具调用、多步规划与任务执行能力上持续打磨。在BFCL-V4、TAU2-bench、SWE-bench Verified等评测中,即便面对激活参数更大的模型,依然能取得相近甚至SOTA级别的表现。

目前模型已在Hugging Face和ModelScope双平台开源,开发者可根据自身硬件环境选择不同精度版本进行部署。

开源地址:
Hugging Face | ModelScope

本文地址:https://www.163264.com/11333

(0)
上一篇 10小时前
下一篇 10小时前

相关推荐