核心看点
5月27日,小米宣布旗下自研大模型MiMo-V2.5系列API永久降价,最高降幅达99%。更关键的是,小米取消了上下文窗口长度的区分定价——无论输入多少token,统一按新价格计费。这一调整已于北京时间5月27日0:00全球同步生效。
详细解析
价格有多狠?
- MiMo-V2.5 Pro输入缓存命中:降至0.025元/百万tokens,降幅99%
- MiMo-V2.5输入缓存命中:降至0.02元/百万tokens,降幅98%
- MiMo-V2.5 Pro输出:降至6元/百万tokens,降幅86%
- MiMo-V2.5输出:降至2元/百万tokens,降幅93%
Token Plan体系同步优化
小米还升级了Token Plan计费体系,在加量不加价的基础上,用量提升至原来的5-8倍,并引入Credits概念,让计费规则更清晰透明。
技术底气在哪里?
小米透露,这次降价背后是推理系统的深度优化:基于SGLang HiCache完整支持SWA,KV Cache在多级存储间的数据搬运量降至优化前的1/7,可缓存token数量提升至优化前的5倍。通过专家并行方案优化、输入长度分桶策略,进一步提升集群吞吐。
简评
大模型API价格战正在从”DeepSeek时刻”走向常态化。小米这次降价不是促销,而是永久定价调整,说明推理成本下降是结构性趋势。对于开发者来说,这无疑是利好——用更低成本调用更强模型,创新门槛持续降低。但对于模型厂商而言,如何在价格战中保持技术投入和盈利空间,将是一个长期挑战。
本文地址:https://www.163264.com/12322

