OpenAI 在4月底正式发布了GPT-5.5。和外界预期的”参数竞赛”不同,这次迭代走了一条更聪明的路——涨价但不加量,专为Codex生态量身定制。
核心看点
定价翻倍但token效率大幅提升
GPT-5.5的API定价为每百万token $5/$30,是GPT-5.4的两倍。但Sam Altman解释得很直白——每个任务消耗的token更少,综合算下来反而更划算。总裁Greg Brockman甚至称之为”新级别的智能”。
基准全面碾压,代码修复除外
在Terminal-Bench 2.0长时间推理测试中,GPT-5.5以82.7%大幅领先Opus 4.7的69.4%。1M token上下文窗口让长文本检索从GPT-5.4的36.6%飙升至74.0%。在覆盖44个职业的GDPval知识工作基准上达到84.9%。但有趣的是,在SWE-Bench Pro代码修复测试中仅得58.6%,反而不及Opus 4.7的64.3%。
Codex才是这次更新的真正主角
同一时间,Codex桌面端同步升级了浏览器控制、Sheets/Slides/Docs处理、系统级语音和自动审查能力。OpenAI内部85%的员工每周都在用Codex。
真实场景案例令人印象深刻
一份24份、共771页的K-1税表用GPT-5.5自动审阅节省了两周时间。该模型还参与了一个Ramsey数渐近证明,研究者表示原本需要数月人工分析。推理速度通过与NVIDIA GB200/GB300的协同设计提升了20%。
值得注意的是,GPT-5.5的幻觉率(AA-Omniscience基准)依然高达86%,虽然比GPT-5.4的89%略好,但相比Opus 4.7的36%明显逊色。这也印证了宾大教授Ethan Mollick的判断:AI的能力边界不是平线推进,而是锯齿膨胀——每个模型都有自己的优势和软肋。
本文地址:https://www.163264.com/11246

