蚂蚁集团百灵大模型开源 Ling-2.6-flash:104B参数、4卡H20跑到340 tokens/s

4月29日消息,蚂蚁集团旗下百灵大模型今日宣布 Ling-2.6-flash 正式开源,同步提供 BF16、FP8、INT4 等多个量化版本,方便开发者根据硬件环境和部署需求灵活选择。

核心看点

  • 惊人推理速度:4卡H20环境下推理速度最快可达 340 tokens/s
  • 超高效 Token 消耗:完整评测仅消耗 1500 万 tokens,约为竞品的 1/10
  • 104B 总参 + 7.4B 激活:大参数基底 + 稀疏激活的经济方案
  • Agent 场景专项优化:工具调用、多步规划能力对标 SOTA

Ling-2.6-flash 是一款总参数 104B、激活参数仅 7.4B 的 Instruct 模型。两周前曾以 Elephant Alpha 的匿名身份登陆 OpenRouter 进行公测,官方过去两周持续收集开发者反馈并做了多轮优化,重点改进了中英文自然切换能力和主流 Coding 框架的适配效果。

这款模型最大的亮点在于”智效比”——用最少的计算资源办最多的事。在 Artificial Analysis 的完整评测中,Ling-2.6-flash 仅消耗 1500 万 tokens 就完成了全部测试,而像 Nemotron-3-Super 这样的竞品需要约 1.5 亿 tokens,差距整整 10 倍。

直面 Agent 时代的定向增强

不止于快,Ling-2.6-flash 在 Agent 能力上也下了重注。官方针对当前需求最旺盛的智能体应用场景,在工具调用(BFCL-V4)、多步规划(TAU2-bench)、代码能力(SWE-bench Verified)以及 Claw-Eval、PinchBench 等评测中,即使面对激活参数更大的模型,依然能取得相近甚至 SOTA 级别的表现。

这种”大基底 + 小激活 + Agent 优化”的思路,正好踩中了当前 AI 行业从”越大越好”转向”越实用越好”的趋势节点。

开源与可用性

Ling-2.6-flash 已在 Hugging Face 和 ModelScope 同步开源,提供 BF16、FP8、INT4 三种精度版本。不同精度的版本适配不同的硬件场景——BF16 适合追求精度的场景,FP8 在精度和速度之间取得平衡,INT4 则面向边缘设备和低算力环境。

开源地址:
Hugging Face:https://huggingface.co/inclusionAI/Ling-2.6-flash
ModelScope:https://www.modelscope.cn/models/inclusionAI/Ling-2.6-flash

本文地址:https://www.163264.com/11311

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐