核心看点
2026年4月7日,Anthropic做了一件AI史上前所未有的事:
- 发布了自己”有史以来最强大的AI模型”
- 然后宣布:不向公众开放
这就是 Claude Mythos Preview——一个强到Anthropic自己都不敢随便放出来的模型。
恐怖的数据:93.9%的SWE-bench
先上硬数据:
- SWE-bench Verified:93.9%——从Opus 4.6的80.8%直接暴涨到93.9%
- USAMO 2026数学推理:97.6%——近乎满分
93.9%意味着什么?SWE-bench是测试AI解决真实GitHub Issue的能力。93.9%已经接近”天花板”——再往上,可能就要触及人类专业工程师的水平了。
更可怕的是:它能自主发现零日漏洞
Mythos Preview不是只会做题。它在真实测试中展现了令人不安的能力:
- Linux内核:发现多个高危漏洞
- OpenBSD:打穿了藏了27年的SACK实现漏洞
- FreeBSD NFS:17年的远程代码执行漏洞,Mythos几个小时就跑出了完整exploit
- Firefox浏览器:发现核心组件漏洞
专家说,这些漏洞手工挖掘需要数周时间。Mythos Preview用了几小时。
这就是为什么Anthropic不敢公开它。
“第四层级”:超越Opus的全新定位
Mythos的内部代号是”Capybara(水豚)”,它直接跳过了Opus系列,进入全新的“第四层级(Tier 4)”。
目前,Mythos Preview仅面向核心厂商提供(比如苹果),普通用户和开发者根本接触不到。
Anthropic还同步启动了Project Glasswing网络安全合作计划——显然,他们意识到这种能力既是武器,也是盾牌。
AI安全的新范式:”太强所以不发布”
以前,AI公司比的是谁发布得更快、更强。Anthropic这次反其道而行:因为太强,所以不发布。
这不是营销话术。244页的系统报告详细记录了Mythos的能力边界和风险评估。Anthropic在认真考虑:如果这种AI被滥用,后果是什么?
在AI安全领域,这可能会成为一个新的分水岭——能力越强,开放越谨慎。
总结
Claude Mythos Preview是Anthropic的技术巅峰,也是AI行业的一个转折点。
它证明了AI的能力已经到达了一个临界点:不是”能不能做”,而是”该不该做”。
93.9%的SWE-bench、自主发现零日漏洞、27年老漏洞被击穿……这些数字背后,是一个根本问题:当AI比人类更擅长找漏洞,我们要怎么确保它不被用来制造漏洞?
Anthropic选择了谨慎。这个选择本身,可能比模型更值得关注。
本文地址:https://www.163264.com/12741


微信扫一扫,鼓励一下~