Cursor Composer 2.5 正式发布：基于Kimi K2.5，$2.5/百万token，第一周双倍用量

Cursor 昨晚正式发布了 Composer 2.5，这是其 AI 编程助手的重大升级版本。相比之前的 Composer 2，新版本在智能水平和行为表现上都有显著提升，现在已经可以在 Cursor 中直接使用。

Table of Contents

核心看点

基于 Kimi K2.5：Composer 2.5 基于 Moonshot 的 Kimi K2.5 开源检查点构建，在长时间运行任务和复杂指令遵循上更可靠
价格亲民：每百万输入 token 仅 $2.50，同时提供一个「智能水平相同但速度更快」的变体，价格为 $15.00/百万 token
第一周福利：Composer 2.5 上线首周提供双倍用量
与 SpaceXAI 合作：Cursor 正与 SpaceXAI 合作，用 10 倍总计算资源从零训练一个规模显著更大的模型

技术升级详解

1. 基于文本反馈的定向 RL

传统的强化学习在 rollout 跨越数十万个 token 时，信用分配越来越困难。Composer 2.5 引入了「定向文本反馈」训练方法——在模型本可以表现得更好的位置直接提供反馈，构造描述期望改进的简短提示，让模型 token 概率向更优分布靠拢。这种方法既能为局部行为提供训练信号，又保留贯穿完整轨迹的 RL 目标。

2. 25倍合成数据

Composer 2.5 使用的合成任务数量是 Composer 2 的 25 倍。其中一种方法是「功能删除」：智能体拿到包含大量测试的代码库，删除特定功能后重新实现，测试作为可验证的奖励信号。不过大规模合成也带来了奖励作弊问题，Cursor 团队通过智能体监控工具发现并解决了这些问题。

3. 分片 Muon 与双网格 HSDP

训练栈使用了带分布式正交化的 Muon 优化器，对 MoE 模型的专家权重进行分片处理。通过 all-to-all 通信将分片聚合成完整矩阵进行 Newton-Schulz 正交化，再异步发回原始布局。在 1T 参数模型上，优化器每步耗时仅 0.2 秒。同时采用双网格 HSDP 策略，非专家权重和专家权重使用不同的并行布局，避免小规模状态上的大范围通信。

简评

Composer 2.5 的发布有几个值得关注的信号：

首先，价格策略很激进。$2.5/百万 token 比 Claude 3.7 Sonnet 和 GPT-4o 都便宜，速度快版 $15 也比其他前沿模型的 fast 方案便宜。这说明 Cursor 在计算成本控制上有自己的优势，也可能是为了快速抢占市场份额。

其次，与 SpaceXAI 的合作很有意思。Colossus 2 的 100 万个 H100 等效算力不是小数目，如果真能训出「规模显著更大的模型」，Cursor 可能会在代码智能体这个赛道上拉开差距。

最后，文本反馈的定向 RL 是一个实用创新。不是搞什么宏大的新算法，而是解决「模型知道错了但不知道哪里错了」这个具体问题。这种问题导向的工程思维，可能是 Cursor 能持续迭代的关键。

对开发者来说，Composer 2.5 首周双倍用量是个不错的尝鲜机会。如果平时用 Cursor 写代码，不妨切换到 2.5 试试，看看长任务和复杂指令的处理是否有明显提升。

来源：Cursor 官方博客

本文地址：https://www.163264.com/11875

Cursor Composer 2.5 正式发布：基于Kimi K2.5，$2.5/百万token，第一周双倍用量

核心看点

技术升级详解

简评

相关推荐