Cursor 昨晚正式发布了 Composer 2.5,这是其 AI 编程助手的重大升级版本。相比之前的 Composer 2,新版本在智能水平和行为表现上都有显著提升,现在已经可以在 Cursor 中直接使用。
核心看点
- 基于 Kimi K2.5:Composer 2.5 基于 Moonshot 的 Kimi K2.5 开源检查点构建,在长时间运行任务和复杂指令遵循上更可靠
- 价格亲民:每百万输入 token 仅 $2.50,同时提供一个「智能水平相同但速度更快」的变体,价格为 $15.00/百万 token
- 第一周福利:Composer 2.5 上线首周提供双倍用量
- 与 SpaceXAI 合作:Cursor 正与 SpaceXAI 合作,用 10 倍总计算资源从零训练一个规模显著更大的模型
技术升级详解
1. 基于文本反馈的定向 RL
传统的强化学习在 rollout 跨越数十万个 token 时,信用分配越来越困难。Composer 2.5 引入了「定向文本反馈」训练方法——在模型本可以表现得更好的位置直接提供反馈,构造描述期望改进的简短提示,让模型 token 概率向更优分布靠拢。这种方法既能为局部行为提供训练信号,又保留贯穿完整轨迹的 RL 目标。
2. 25倍合成数据
Composer 2.5 使用的合成任务数量是 Composer 2 的 25 倍。其中一种方法是「功能删除」:智能体拿到包含大量测试的代码库,删除特定功能后重新实现,测试作为可验证的奖励信号。不过大规模合成也带来了奖励作弊问题,Cursor 团队通过智能体监控工具发现并解决了这些问题。
3. 分片 Muon 与双网格 HSDP
训练栈使用了带分布式正交化的 Muon 优化器,对 MoE 模型的专家权重进行分片处理。通过 all-to-all 通信将分片聚合成完整矩阵进行 Newton-Schulz 正交化,再异步发回原始布局。在 1T 参数模型上,优化器每步耗时仅 0.2 秒。同时采用双网格 HSDP 策略,非专家权重和专家权重使用不同的并行布局,避免小规模状态上的大范围通信。
简评
Composer 2.5 的发布有几个值得关注的信号:
首先,价格策略很激进。$2.5/百万 token 比 Claude 3.7 Sonnet 和 GPT-4o 都便宜,速度快版 $15 也比其他前沿模型的 fast 方案便宜。这说明 Cursor 在计算成本控制上有自己的优势,也可能是为了快速抢占市场份额。
其次,与 SpaceXAI 的合作很有意思。Colossus 2 的 100 万个 H100 等效算力不是小数目,如果真能训出「规模显著更大的模型」,Cursor 可能会在代码智能体这个赛道上拉开差距。
最后,文本反馈的定向 RL 是一个实用创新。不是搞什么宏大的新算法,而是解决「模型知道错了但不知道哪里错了」这个具体问题。这种问题导向的工程思维,可能是 Cursor 能持续迭代的关键。
对开发者来说,Composer 2.5 首周双倍用量是个不错的尝鲜机会。如果平时用 Cursor 写代码,不妨切换到 2.5 试试,看看长任务和复杂指令的处理是否有明显提升。
来源:Cursor 官方博客
本文地址:https://www.163264.com/11875

