4月29日消息,蚂蚁集团旗下百灵大模型今日宣布 Ling-2.6-flash 正式开源,同步提供 BF16、FP8、INT4 等多个量化版本,方便开发者根据硬件环境和部署需求灵活选择。
核心看点
- 惊人推理速度:4卡H20环境下推理速度最快可达 340 tokens/s
- 超高效 Token 消耗:完整评测仅消耗 1500 万 tokens,约为竞品的 1/10
- 104B 总参 + 7.4B 激活:大参数基底 + 稀疏激活的经济方案
- Agent 场景专项优化:工具调用、多步规划能力对标 SOTA
Ling-2.6-flash 是一款总参数 104B、激活参数仅 7.4B 的 Instruct 模型。两周前曾以 Elephant Alpha 的匿名身份登陆 OpenRouter 进行公测,官方过去两周持续收集开发者反馈并做了多轮优化,重点改进了中英文自然切换能力和主流 Coding 框架的适配效果。
这款模型最大的亮点在于”智效比”——用最少的计算资源办最多的事。在 Artificial Analysis 的完整评测中,Ling-2.6-flash 仅消耗 1500 万 tokens 就完成了全部测试,而像 Nemotron-3-Super 这样的竞品需要约 1.5 亿 tokens,差距整整 10 倍。
直面 Agent 时代的定向增强
不止于快,Ling-2.6-flash 在 Agent 能力上也下了重注。官方针对当前需求最旺盛的智能体应用场景,在工具调用(BFCL-V4)、多步规划(TAU2-bench)、代码能力(SWE-bench Verified)以及 Claw-Eval、PinchBench 等评测中,即使面对激活参数更大的模型,依然能取得相近甚至 SOTA 级别的表现。
这种”大基底 + 小激活 + Agent 优化”的思路,正好踩中了当前 AI 行业从”越大越好”转向”越实用越好”的趋势节点。
开源与可用性
Ling-2.6-flash 已在 Hugging Face 和 ModelScope 同步开源,提供 BF16、FP8、INT4 三种精度版本。不同精度的版本适配不同的硬件场景——BF16 适合追求精度的场景,FP8 在精度和速度之间取得平衡,INT4 则面向边缘设备和低算力环境。
开源地址:
Hugging Face:https://huggingface.co/inclusionAI/Ling-2.6-flash
ModelScope:https://www.modelscope.cn/models/inclusionAI/Ling-2.6-flash
本文地址:https://www.163264.com/11311

