蚂蚁集团百灵大模型开源 Ling-2.6-flash：104B参数、4卡H20跑到340 tokens/s

4月29日消息，蚂蚁集团旗下百灵大模型今日宣布 Ling-2.6-flash 正式开源，同步提供 BF16、FP8、INT4 等多个量化版本，方便开发者根据硬件环境和部署需求灵活选择。

Table of Contents

核心看点

惊人推理速度：4卡H20环境下推理速度最快可达 340 tokens/s
超高效 Token 消耗：完整评测仅消耗 1500 万 tokens，约为竞品的 1/10
104B 总参 + 7.4B 激活：大参数基底 + 稀疏激活的经济方案
Agent 场景专项优化：工具调用、多步规划能力对标 SOTA

Ling-2.6-flash 是一款总参数 104B、激活参数仅 7.4B 的 Instruct 模型。两周前曾以 Elephant Alpha 的匿名身份登陆 OpenRouter 进行公测，官方过去两周持续收集开发者反馈并做了多轮优化，重点改进了中英文自然切换能力和主流 Coding 框架的适配效果。

这款模型最大的亮点在于”智效比”——用最少的计算资源办最多的事。在 Artificial Analysis 的完整评测中，Ling-2.6-flash 仅消耗 1500 万 tokens 就完成了全部测试，而像 Nemotron-3-Super 这样的竞品需要约 1.5 亿 tokens，差距整整 10 倍。

直面 Agent 时代的定向增强

不止于快，Ling-2.6-flash 在 Agent 能力上也下了重注。官方针对当前需求最旺盛的智能体应用场景，在工具调用（BFCL-V4）、多步规划（TAU2-bench）、代码能力（SWE-bench Verified）以及 Claw-Eval、PinchBench 等评测中，即使面对激活参数更大的模型，依然能取得相近甚至 SOTA 级别的表现。

这种”大基底 + 小激活 + Agent 优化”的思路，正好踩中了当前 AI 行业从”越大越好”转向”越实用越好”的趋势节点。

开源与可用性

Ling-2.6-flash 已在 Hugging Face 和 ModelScope 同步开源，提供 BF16、FP8、INT4 三种精度版本。不同精度的版本适配不同的硬件场景——BF16 适合追求精度的场景，FP8 在精度和速度之间取得平衡，INT4 则面向边缘设备和低算力环境。

开源地址：
Hugging Face：https://huggingface.co/inclusionAI/Ling-2.6-flash
ModelScope：https://www.modelscope.cn/models/inclusionAI/Ling-2.6-flash

本文地址：https://www.163264.com/11311

蚂蚁集团百灵大模型开源 Ling-2.6-flash：104B参数、4卡H20跑到340 tokens/s

核心看点

直面 Agent 时代的定向增强

开源与可用性

相关推荐