4月27日消息,OpenAI今天正式发布GPT-5.5,一个”更贵但不更烧”的新模型。这次更新的叙事让人眼前一亮:核心不是模型变聪明了多少,而是整个生态的底座升级。
核心看点:定价翻倍,但每个任务花更少的Token
GPT-5.5的API定价为$5/$30每百万token,是GPT-5.4的两倍。乍一看,贵了。但Sam Altman在公布定价时补了一句关键的话:”Remember, you will need less tokens per task than 5.4!”
翻译成人话就是:单价翻倍,但完成一个任务需要的token数大幅下降,实际综合成本反而更划算。OpenAI总裁Greg Brockman甚至在发布会上给出了一个更大的定义:”a new class of intelligence”(一种新智能类别)。
这个逻辑其实很好理解:模型越聪明,它”猜”你想要的答案就越精准,不需要来回折腾。你提需求→它直接给结果,token自然省了。
核心看点:Benchmark成绩不是全面碾压,但足够惊艳
先说跑分,GPT-5.5的高光时刻:
– Terminal-Bench 2.0(复杂终端任务): 82.7%,碾压Claude Opus 4.7的69.4%
– 百万Token长文本检索(MRCR v2): 从GPT-5.4的36.6%直接翻倍到74.0%,Opus 4.7只有32.2%
– GDPval(覆盖44个职业的知识工作基准): 84.9%
但也有短板,在SWE-Bench Pro(代码修复)上只拿了58.6%,不如Opus 4.7的64.3%。这意味着在纯粹的代码修复场景下,Claude还有优势。
更有意思的是发布当天的”Benchmark战争”——独立开发者@bridgemindai先发推说”Opus 4.7在SWE Bench Pro上碾压GPT-5.5″,几小时后又说”Opus 4.7已经不是世界最强了,远远不是”。同一个人同一天态度180度大转弯,两边数据其实都是真的。
宾夕法尼亚大学教授Ethan Mollick给了一个很好的解释:AI的能力边界不是平推的直线,而是锯齿状的。选哪颗齿来报道,就决定你讲什么故事。
核心看点:真正的王炸是Codex
GPT-5.5发布当天,真正的重头戏其实是Codex桌面端的同步升级。它新增了四大核心能力:
– 浏览器控制:Codex能直接操控浏览器
– Sheets/Slides/Docs处理:办公套件深度集成
– 系统级语音:语音交互上升到系统级别
– 自动审查功能
这意味着什么?GPT-5.5本质上是一个为Codex生态量身定制的模型。OpenAI内部85%的员工每周都在用Codex,这已经不是实验品,而是主力工具。
三个让人印象深刻的用例:
1. 自动审阅24份K-1税表共771页PDF,节省了两周时间
2. GPT-5.5参与了Ramsey数渐近证明,研究员说本来需要数月人工分析
3. 推理速度通过与NVIDIA GB200/GB300的联合设计提升了20%
核心看点:打不过就涨价,OpenAI的新策略
一个有趣的现象是,OpenAI这次选择了”涨价替代降智”的路线。GPT-5.4时用户已经普遍感觉模型”不那么聪明了”,GPT-5.5直接把价格提高一倍,但保证每个token的质量和效率。
这与Google、Anthropic、DeepSeek等竞争对手的”价格战”策略形成鲜明对比。在大家都在降价抢用户的时候,OpenAI反向操作——你们卷价格,我卷单次质量。
总结
GPT-5.5不是传统意义上的”更强大了”的升级,而是一次生态系统的跃迁。当基准测试不再有统一标准(谁更强取决于比什么),竞争的焦点就从”谁的模型更好”转向了”谁的产品生态更完整”。
OpenAI选择用Codex来回答这个问题。而GPT-5.5,就是Codex的最佳拍档。
本文地址:https://www.163264.com/11220

