智谱GLM-5.1高速版:每秒400个token,API速度刷新全球记录

智谱发布了GLM-5.1高速版API输出速度达到400 tokens/秒,刷新了全球大模型API的速度上限。

重点是:速度快了,能力没缩水。旗舰级全尺寸模型该有的智力一点没少,延迟还压到极低。

怎么做到的:

不是单纯给模型减肥,而是从推理引擎、调度系统到基础设施层,全链路做工程优化。相当于不是换了个小马达,而是把整辆车的传动、轮胎、油路全调了一遍。

对开发者来说,这意味着以前等模型回复要几秒,现在眨眼就出结果。做实时对话、流式生成、交互式应用的时候,体验提升很明显。

本文地址:https://www.163264.com/12163

(0)
上一篇 10小时前
下一篇 10小时前

相关推荐