Claude Opus 4.7 与 GPT-5.5 正面交锋：Anthropic 承认降智问题并紧急修复

OpenAI 于 4 月 23 日发布 GPT-5.5 后，AI 大模型赛道迎来了一场硬碰硬的较量。作为直接竞争对手，Anthropic 的 Claude Opus 4.7 在多个维度上与 GPT-5.5 展开了正面交锋，结果各有胜负。

更引人注目的是，就在 GPT-5.5 发布当天，Anthropic 官方开发平台账号罕见发布公告，正式承认了用户此前长期诟病的”降智”问题，并宣布已修复完成。

核心看点

Claude Opus 4.7 并非全面落后。在 SWE-Bench Pro（代码修复）上，Opus 4.7 以 64.3% 的成绩力压 GPT-5.5 的 58.6%。然而在 Terminal-Bench 2.0（长时间推理）上，GPT-5.5 达到了 82.7%，远超 Opus 4.7 的 69.4%。两者的能力边界呈明显的”锯齿状”分布——没有绝对赢家。

幻觉率方面差异显著。AA-Omniscience 测试显示，GPT-5.5 的幻觉率高达 86%，而 Opus 4.7 仅为 36%。这意味着 Claude 在事实准确性上依然保持明显优势。

Anthropic 低头承认”降智”

最劲爆的消息来自 Anthropic 官方。在 GPT-5.5 发布当天，Claude 官方开发平台账号发布公告，承认了用户持续反映的”降智”问题，并表示已经修复。

有网友揶揄道：”被用户指责了整整一个月后，在对手发布更强模型之后才来承认和修复。”

这一事件在外界看来颇具戏剧性：OpenAI 最强模型的发布，反而成了 Anthropic 承认问题并改进的催化剂。某种程度上，GPT-5.5 的强大能力成为了 Anthropic 修复行为的最佳背书。

生态竞争已经超越模型本身

GPT-5.5 的发布策略值得关注：API 定价翻倍但单任务 Token 消耗显著降低，同时 API 延迟发布，用户要使用 GPT-5.5 的唯一路径是通过 Codex 生态。OpenAI 还雇用了 OpenClaw 创始人 Peter Steinberger，宣布 Codex 订阅可在任何第三方工具中使用，甚至包括 Claude Code。

相比之下，Anthropic 此前封杀了通过订阅接口调用 Claude 的第三方工具。

这场竞争的意义已经超越了模型跑分本身。GPT-5.5 距离 GPT-5.4 仅隔一个多月，OpenAI 首席科学家 Jakub Pachocki 甚至表示”过去几年太慢了”。AI 竞争的焦点正在从模型性能转向生态入口的争夺。

对普通用户而言，Claude Opus 4.7 在代码修复和事实准确性上仍有优势，而 GPT-5.5 在推理和工具生态上更胜一筹。选择哪个，取决于你的具体需求。

本文地址：https://www.163264.com/11216

Claude Opus 4.7 与 GPT-5.5 正面交锋：Anthropic 承认降智问题并紧急修复

相关推荐