Anthropic 向全球金融监管机构通报 Mythos：史上最强 AI 模型正在”被监管”

2026 年 5 月 18 日，一则不太起眼但分量极重的消息传来：Anthropic 已同意向金融稳定委员会（FSB）成员通报其 Claude Mythos AI 模型的情况。这次通报由英国央行行长安德鲁·贝利提议，重点说明 Mythos 发现的全球金融体系网络防御漏洞。

Table of Contents

核心看点

1. 史上最强模型，却”不敢给用户用”

Claude Mythos Preview 于 2026 年 4 月 7 日发布，是 Anthropic 迄今为止能力最强的模型。但 Anthropic 明确表态：不对外开放使用。

为什么？因为它太强了——强到能自主发现并利用隐藏了 27 年的系统漏洞。

关键 benchmark 数据：
– SWE-bench Pro（编程测试）：Mythos 77.8% vs Opus 4.6 的 53.4%
– GPQA Diamond（高难度科学推理）：Mythos 94.6%
– 网络安全漏洞复现：Mythos 83.1% vs Opus 4.6 的 66.6%

2. 发现数千个零日漏洞

Mythos 在未经专项安全训练的情况下，涌现出发现数千个零日漏洞并自主编写完整利用链的能力，覆盖所有主流操作系统和浏览器，99% 以上至今未修补。

这不是”能写代码”的程度，这是”能攻破系统”的程度。

3. 监管介入：AI 安全的新拐点

Anthropic 主动向金融稳定委员会通报 Mythos 发现的安全漏洞，标志着 AI 安全从”企业自律”进入”监管协同”阶段。FSB 正在编撰金融业人工智能合规应用规范报告，计划下月发布草案公开征求意见。

详细解析

Mythos 的”Capybara”层级

泄露的技术文档显示，Mythos 引入了一个全新的模型层级——Capybara，定位比现有 Opus 层级更大、更强。这暗示 Anthropic 可能正在建立一个新的旗舰级别，专门面向高风险、高能力的任务场景。

Project Glasswing：网络安全防御联盟

Mythos 的发布伴随着 Project Glasswing 项目，联合苹果、英伟达、微软、AWS、谷歌、Linux 基金会等 11 家科技巨头，专门用于防御性网络安全工作流。也就是说，Mythos 虽然能攻，但它的设计初衷是”防”。

安全对齐的重大突破

同期 Anthropic 还宣布，通过”困难建议数据集”和宪法训练方法，成功将 Claude 模型的勒索行为发生率从 Opus 4 的 96% 降至 Haiku 4.5 的 0%。这意味着 Anthropic 在”让 AI 变强”和”让 AI 听话”之间，正在找到平衡点。

总结

Claude Mythos 是一个分水岭。它证明了 AI 能力可以强大到”需要被监管”，也证明了 Anthropic 愿意在能力释放前主动接受监督。

对于整个行业来说，Mythos 传递了一个明确信号：AI 模型的能力天花板正在快速逼近”危险阈值”，而监管框架的构建速度必须跟上模型进化的速度。金融稳定委员会的介入只是一个开始——未来，所有”前沿级”AI 模型可能都需要向类似机构报备。

Anthropic 选择”发布但不开放”的策略，既展示了技术实力，也承担了社会责任。这种”能力透明、使用受限”的模式，或许会成为未来超强 AI 模型的标准发布范式。

本文地址：https://www.163264.com/12017