智谱GLM-5.1高速版：每秒400个token，API速度刷新全球记录

2026年5月22日下午7:33 • 模型框架 • 阅读 283

智谱发布了GLM-5.1高速版API，输出速度达到400 tokens/秒，刷新了全球大模型API的速度上限。

重点是：速度快了，能力没缩水。旗舰级全尺寸模型该有的智力一点没少，延迟还压到极低。

怎么做到的：

不是单纯给模型减肥，而是从推理引擎、调度系统到基础设施层，全链路做工程优化。相当于不是换了个小马达，而是把整辆车的传动、轮胎、油路全调了一遍。

对开发者来说，这意味着以前等模型回复要几秒，现在眨眼就出结果。做实时对话、流式生成、交互式应用的时候，体验提升很明显。

本文地址：https://www.163264.com/12163

上一篇 2026年5月22日下午7:33

下一篇 2026年5月22日下午7:33