最近 Anthropic 动静不小,三件事连环炸——刚曝光安全模型吓得欧洲央行开会,又被曝出 Agent 实战翻车,转头就亮出”永久大脑”自救。连即将发布的 Claude 4.8 系列也蓄势待发。
核心看点
- Claude Mythos 预览版能挖数千高危漏洞,金融圈慌了
- Claude 在真实办公场景 Agent 测试中通过率仅 3.8%
- Anthropic 紧急亮出”永久大脑”记忆系统 + 24小时在线 ConwayAgent
- Sonnet 4.8 / Opus 4.8 预计 6 月中旬发布,视觉准确率将超 98%
Claude Mythos:挖漏洞太猛,欧洲央行紧急开会
5 月 24 日,科技媒体 Testingcatalog 爆料 Anthropic 准备上线 Claude Mythos 预览版。这个模型定位不是普通聊天助手,而是面向计算机安全任务的专用前沿模型。
有多猛?据报道它能发现数千个高危漏洞,覆盖所有主流操作系统和网页浏览器。以往安全补丁发布后,攻击者反向推导漏洞通常需要数周时间;而在 Mythos 面前,这个过程被压缩到约 30 分钟。
金融圈率先坐不住了。5 月 26 日《金融时报》披露,欧洲央行已紧急召开临时会议,认为 Mythos 及类似 AI 模型揭示了金融系统面临的严重威胁,敦促已使用该技术的美国银行与欧洲同行分享信息。Anthropic 已同意向金融稳定委员会和欧盟委员会提供高层简报。
目前 Mythos 主要面向苹果等核心厂商开放,尚未像 Opus 4.7 那样全面公众化。Anthropic 显然在谨慎推进——毕竟这个模型的”杀伤力”实在太大。
Agent 实战翻车 vs “永久大脑”自救
戏剧性的一幕发生在 5 月 25 日。同一天,两份截然相反的消息同时曝光:
坏消息:UniPatAI 团队发布的 SaaS-Bench 测试结果显示,Claude 在 106 个真实办公任务中仅成功完成 4 个,整体通过率仅 3.8%。在实验室里表现优异的 Claude,一到真实办公场景就现了原形。
好消息:AI 追踪平台 TestingCatalog 披露,Anthropic 正在为 Claude 开发一套叫“永久大脑”的全新记忆系统,核心技术有两板斧:
- 文件记忆:Claude 能在对话中自动整理和分类信息,像人类做笔记一样,后续检索速度大幅提升
- 梦境机制:Claude 在空闲时自动维护和更新记忆文件,保持信息准确性和实用性
用户反馈显示这套系统已经显著降低了错误率并提升了任务处理效率。SaaS-Bench 的 3.8% 可能正是 Claude”没记性”的代价——有了永久大脑,情况应该能改善不少。
同一天 Anthropic 还推出了 ConwayAgent,一个 24 小时在线的 AI 智能体平台,能主动响应外部事件、自主触发任务。这跟被动等用户输入的传统模式完全不同,是朝真正”自主 Agent”迈出的关键一步。
Claude 4.8 系列:6 月中旬见
除了 Mythos 和永久大脑,常规迭代也没停。据 5 月 26 日飞络 AI 快报,Opus 4.8 和 Sonnet 4.8 预计 6 月中旬推出。
主要升级方向:
- 视觉准确率预计超过 98%
- 代码生成与高级推理能力显著增强
- Mythos 安全模型的能力正被扩展至代码与安全领域
另外爆料人 Pankaj Kumar 透露,Anthropic 可能在 3 月底的一次 Claude Code npm 更新中意外泄露了约 512000 行内部调试代码,其中出现 Sonnet 4.8 相关引用。该版本可能跳过 Sonnet 4.7,直接发力视觉理解、代码生成和指令遵循。
总结
Anthropic 这半个月的操作堪称”危机公关教科书”——Agent 测试翻车的负面消息还没凉,就立刻甩出 Mythos 和永久大脑两个王炸,把舆论焦点从” Claude 不行”扭转为” Claude 太猛所以要管控”。
6 月中旬的 4.8 系列更新加上逐渐释放的 Mythos 能力,预示着 Anthropic 正在从”好用的聊天机器人”向”能自主干活的 Agent 平台”全面转型。永久大脑解决记忆问题,ConwayAgent 解决主动执行问题,Mythos 解决安全专业能力问题——三张牌凑齐,Anthropic 的野心已经不只是跟 OpenAI 掰手腕了。
本文地址:https://www.163264.com/12355

