Claude Mythos Preview:Anthropic造出了”不敢公开”的AI,SWE-bench 93.9%刷新纪录

核心看点

2026年4月7日,Anthropic做了一件AI史上前所未有的事:

  • 发布了自己”有史以来最强大的AI模型”
  • 然后宣布:不向公众开放

这就是 Claude Mythos Preview——一个强到Anthropic自己都不敢随便放出来的模型。

恐怖的数据:93.9%的SWE-bench

先上硬数据:

  • SWE-bench Verified:93.9%——从Opus 4.6的80.8%直接暴涨到93.9%
  • USAMO 2026数学推理:97.6%——近乎满分

93.9%意味着什么?SWE-bench是测试AI解决真实GitHub Issue的能力。93.9%已经接近”天花板”——再往上,可能就要触及人类专业工程师的水平了。

更可怕的是:它能自主发现零日漏洞

Mythos Preview不是只会做题。它在真实测试中展现了令人不安的能力:

  • Linux内核:发现多个高危漏洞
  • OpenBSD:打穿了藏了27年的SACK实现漏洞
  • FreeBSD NFS:17年的远程代码执行漏洞,Mythos几个小时就跑出了完整exploit
  • Firefox浏览器:发现核心组件漏洞

专家说,这些漏洞手工挖掘需要数周时间。Mythos Preview用了几小时

这就是为什么Anthropic不敢公开它。

“第四层级”:超越Opus的全新定位

Mythos的内部代号是”Capybara(水豚)”,它直接跳过了Opus系列,进入全新的“第四层级(Tier 4)”

目前,Mythos Preview仅面向核心厂商提供(比如苹果),普通用户和开发者根本接触不到。

Anthropic还同步启动了Project Glasswing网络安全合作计划——显然,他们意识到这种能力既是武器,也是盾牌。

AI安全的新范式:”太强所以不发布”

以前,AI公司比的是谁发布得更快、更强。Anthropic这次反其道而行:因为太强,所以不发布

这不是营销话术。244页的系统报告详细记录了Mythos的能力边界和风险评估。Anthropic在认真考虑:如果这种AI被滥用,后果是什么?

在AI安全领域,这可能会成为一个新的分水岭——能力越强,开放越谨慎

总结

Claude Mythos Preview是Anthropic的技术巅峰,也是AI行业的一个转折点。

它证明了AI的能力已经到达了一个临界点:不是”能不能做”,而是”该不该做”。

93.9%的SWE-bench、自主发现零日漏洞、27年老漏洞被击穿……这些数字背后,是一个根本问题:当AI比人类更擅长找漏洞,我们要怎么确保它不被用来制造漏洞?

Anthropic选择了谨慎。这个选择本身,可能比模型更值得关注。

本文地址:https://www.163264.com/12741

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐