Claude Opus 4.7 与 GPT-5.5 正面交锋:Anthropic 承认降智问题并紧急修复

OpenAI 于 4 月 23 日发布 GPT-5.5 后,AI 大模型赛道迎来了一场硬碰硬的较量。作为直接竞争对手,Anthropic 的 Claude Opus 4.7 在多个维度上与 GPT-5.5 展开了正面交锋,结果各有胜负。

更引人注目的是,就在 GPT-5.5 发布当天,Anthropic 官方开发平台账号罕见发布公告,正式承认了用户此前长期诟病的”降智”问题,并宣布已修复完成。

核心看点

Claude Opus 4.7 并非全面落后。在 SWE-Bench Pro(代码修复)上,Opus 4.7 以 64.3% 的成绩力压 GPT-5.5 的 58.6%。然而在 Terminal-Bench 2.0(长时间推理)上,GPT-5.5 达到了 82.7%,远超 Opus 4.7 的 69.4%。两者的能力边界呈明显的”锯齿状”分布——没有绝对赢家。

幻觉率方面差异显著。AA-Omniscience 测试显示,GPT-5.5 的幻觉率高达 86%,而 Opus 4.7 仅为 36%。这意味着 Claude 在事实准确性上依然保持明显优势。

Anthropic 低头承认”降智”

最劲爆的消息来自 Anthropic 官方。在 GPT-5.5 发布当天,Claude 官方开发平台账号发布公告,承认了用户持续反映的”降智”问题,并表示已经修复。

有网友揶揄道:”被用户指责了整整一个月后,在对手发布更强模型之后才来承认和修复。”

这一事件在外界看来颇具戏剧性:OpenAI 最强模型的发布,反而成了 Anthropic 承认问题并改进的催化剂。某种程度上,GPT-5.5 的强大能力成为了 Anthropic 修复行为的最佳背书。

生态竞争已经超越模型本身

GPT-5.5 的发布策略值得关注:API 定价翻倍但单任务 Token 消耗显著降低,同时 API 延迟发布,用户要使用 GPT-5.5 的唯一路径是通过 Codex 生态。OpenAI 还雇用了 OpenClaw 创始人 Peter Steinberger,宣布 Codex 订阅可在任何第三方工具中使用,甚至包括 Claude Code。

相比之下,Anthropic 此前封杀了通过订阅接口调用 Claude 的第三方工具。

这场竞争的意义已经超越了模型跑分本身。GPT-5.5 距离 GPT-5.4 仅隔一个多月,OpenAI 首席科学家 Jakub Pachocki 甚至表示”过去几年太慢了”。AI 竞争的焦点正在从模型性能转向生态入口的争夺。

对普通用户而言,Claude Opus 4.7 在代码修复和事实准确性上仍有优势,而 GPT-5.5 在推理和工具生态上更胜一筹。选择哪个,取决于你的具体需求。

本文地址:https://www.163264.com/11216

(0)
上一篇 19小时前
下一篇 19小时前

相关推荐