OpenAI 在 6 月 27 日扔下一颗重磅炸弹——GPT-5.6 系列正式进入限量预览阶段。这次不是单一模型迭代,而是直接端出「三剑客」:旗舰级的 Sol、平衡型的 Terra、以及高性价比的 Luna。命名方式也从数字版本号升级为「太阳-地球-月亮」的层级体系,意味着未来这三个档位会独立演进,不再是一锅粥式地同步升级。
三档定位,各有所长
这次的产品策略非常清晰:
- Sol(旗舰级):最强推理能力,支持
max深度推理模式和ultra子代理模式,适合复杂编程、生物信息学和网络安全研究 - Terra(平衡型):性能对标 GPT-5.5,但价格便宜一半(输入 $2.5/百万 token,输出 $15/百万 token)
- Luna(轻量型):速度最快、价格最低(输入 $1/百万 token,输出 $6/百万 token),适合高并发日常任务
代码能力登顶,Claude 被甩开
在 TerminalBench 2.1 这个测试命令行工作流的基准上,GPT-5.6 Sol Ultra 拿下 91.9% 的分数,Sol 标准版也有 88.8%。作为对比,Claude Mythos 5 是 88.0%,Gemini 3.1 Pro Preview 只有 70.7%。
更夸张的是生物学领域。在 GeneBench v1 基因组学测试中,GPT-5.6 Sol 不仅结果更强,消耗的 token 还更少——这意味着它不仅能做对,还更「省脑子」。
网络安全:双刃剑与安全护栏
OpenAI 这次把网络安全能力放到了台面上讲。GPT-5.6 Sol 在 ExploitBench 和 ExploitGym 测试中表现突出,甚至能用约 1/3 的 token 达到与 Claude Mythos Preview 相当的水平。
但 OpenAI 也坦承这带来了风险。他们为此构建了「有史以来最坚固的安全体系」:
- 模型层面:训练模型拒绝违规的网络攻击请求
- 实时检测:生成过程中暂停并审查高风险输出
- 账户层面:跨会话追踪异常行为模式
- 超过 70 万 A100 等效 GPU 小时的自动化红队测试
OpenAI 明确表示,GPT-5.6 Sol 尚未达到「网络关键阈值」,在 Chromium 和 Firefox 测试中只能发现漏洞和利用原语,但无法自主完成完整攻击链。
政府介入,限量预览
值得注意的是,这次发布并非全面开放。OpenAI 应美国政府要求,先向一小批「可信合作伙伴」开放预览,并共享了参与名单。OpenAI 直言「不希望这种政府审批流程成为长期默认」,但认为短期妥协是为了后续更广泛开放的最强路径。
定价与可用性
API 定价(每百万 token):
- Sol:输入 $5,输出 $30
- Terra:输入 $2.5,输出 $15
- Luna:输入 $1,输出 $6
缓存写入按 1.25 倍计费,缓存读取仍享受 90% 折扣。7 月起还将通过 Cerebras 提供高达 750 token/秒的推理速度。
总结
GPT-5.6 系列的发布标志着 OpenAI 从「单点突破」转向「体系化产品矩阵」。Sol 打头阵秀肌肉,Terra 走量抢市场,Luna 降本扩覆盖——这套组合拳打下来,Claude 和 Gemini 的压力可想而知。至于安全争议?OpenAI 的态度是:能力越强,护栏越厚,但绝不因噎废食。
本文地址:https://www.163264.com/13441


微信扫一扫,鼓励一下~