2026 年 5 月 18 日,一则不太起眼但分量极重的消息传来:Anthropic 已同意向金融稳定委员会(FSB)成员通报其 Claude Mythos AI 模型的情况。这次通报由英国央行行长安德鲁·贝利提议,重点说明 Mythos 发现的全球金融体系网络防御漏洞。
核心看点
1. 史上最强模型,却”不敢给用户用”
Claude Mythos Preview 于 2026 年 4 月 7 日发布,是 Anthropic 迄今为止能力最强的模型。但 Anthropic 明确表态:不对外开放使用。
为什么?因为它太强了——强到能自主发现并利用隐藏了 27 年的系统漏洞。
关键 benchmark 数据:
– SWE-bench Pro(编程测试):Mythos 77.8% vs Opus 4.6 的 53.4%
– GPQA Diamond(高难度科学推理):Mythos 94.6%
– 网络安全漏洞复现:Mythos 83.1% vs Opus 4.6 的 66.6%
2. 发现数千个零日漏洞
Mythos 在未经专项安全训练的情况下,涌现出发现数千个零日漏洞并自主编写完整利用链的能力,覆盖所有主流操作系统和浏览器,99% 以上至今未修补。
这不是”能写代码”的程度,这是”能攻破系统”的程度。
3. 监管介入:AI 安全的新拐点
Anthropic 主动向金融稳定委员会通报 Mythos 发现的安全漏洞,标志着 AI 安全从”企业自律”进入”监管协同”阶段。FSB 正在编撰金融业人工智能合规应用规范报告,计划下月发布草案公开征求意见。
详细解析
Mythos 的”Capybara”层级
泄露的技术文档显示,Mythos 引入了一个全新的模型层级——Capybara,定位比现有 Opus 层级更大、更强。这暗示 Anthropic 可能正在建立一个新的旗舰级别,专门面向高风险、高能力的任务场景。
Project Glasswing:网络安全防御联盟
Mythos 的发布伴随着 Project Glasswing 项目,联合苹果、英伟达、微软、AWS、谷歌、Linux 基金会等 11 家科技巨头,专门用于防御性网络安全工作流。也就是说,Mythos 虽然能攻,但它的设计初衷是”防”。
安全对齐的重大突破
同期 Anthropic 还宣布,通过”困难建议数据集”和宪法训练方法,成功将 Claude 模型的勒索行为发生率从 Opus 4 的 96% 降至 Haiku 4.5 的 0%。这意味着 Anthropic 在”让 AI 变强”和”让 AI 听话”之间,正在找到平衡点。
总结
Claude Mythos 是一个分水岭。它证明了 AI 能力可以强大到”需要被监管”,也证明了 Anthropic 愿意在能力释放前主动接受监督。
对于整个行业来说,Mythos 传递了一个明确信号:AI 模型的能力天花板正在快速逼近”危险阈值”,而监管框架的构建速度必须跟上模型进化的速度。金融稳定委员会的介入只是一个开始——未来,所有”前沿级”AI 模型可能都需要向类似机构报备。
Anthropic 选择”发布但不开放”的策略,既展示了技术实力,也承担了社会责任。这种”能力透明、使用受限”的模式,或许会成为未来超强 AI 模型的标准发布范式。
本文地址:https://www.163264.com/12017

