智谱发布了GLM-5.1高速版API,输出速度达到400 tokens/秒,刷新了全球大模型API的速度上限。
重点是:速度快了,能力没缩水。旗舰级全尺寸模型该有的智力一点没少,延迟还压到极低。
怎么做到的:
不是单纯给模型减肥,而是从推理引擎、调度系统到基础设施层,全链路做工程优化。相当于不是换了个小马达,而是把整辆车的传动、轮胎、油路全调了一遍。
对开发者来说,这意味着以前等模型回复要几秒,现在眨眼就出结果。做实时对话、流式生成、交互式应用的时候,体验提升很明显。
本文地址:https://www.163264.com/12163

