AI安全 | 梭哈 AI

Anthropic 向全球金融监管机构通报 Mythos：史上最强 AI 模型正在”被监管”

2026 年 5 月 18 日，一则不太起眼但分量极重的消息传来：Anthropic 已同意向金融稳定委员会（FSB）成员通报其 Claude Mythos AI 模型的情况。这次通报由英国央行行长安德鲁·贝利提议，重点说明 Mythos 发现的全球金融体系网络防御漏洞。核心看点 1. 史上最强模型，却”不敢给用户用” Claude Mythos Pr…

anthropic-Claude 2026年5月20日

OpenAI 发布 Daybreak 项目：剑指 Anthropic，把安全检查放进日常代码流程

今天 OpenAI 搞了个大动作——正式推出了名为 Daybreak 的软件安全防御项目，目标直指 Anthropic 的 Glasswing 方案。 Daybreak 是什么？简单说，Daybreak 的核心思路是把安全能力前置到软件开发阶段。以前的安全检查大多是发布前才做，发现问题还得返工重来，费时费力。Daybreak 的理念是：写代码的时候就顺便把安全给做了。具体来…

openai-gpt 2026年5月12日

OpenAI开源Privacy Filter：1.5B参数PII脱敏模型，可在笔记本上运行

OpenAI于4月22日发布了一款全新的个人身份信息（PII）脱敏模型——Privacy Filter，并以Apache 2.0许可协议在Hugging Face和GitHub同步开源，开发者可自由下载、定制及商业部署。核心看点轻量级设计：总参数量15亿，采用MoE混合专家架构，每次仅激活约5000万参数，可在笔记本甚至浏览器上运行 12.8万Token超长上下文：单次前向…

学起来 2026年4月27日

Anthropic MCP协议曝严重设计缺陷，AI工具面临远程代码执行风险

安全研究团队OX Security本周披露，由Anthropic创建并维护的AI行业标准通信协议MCP（Model Context Protocol）存在架构级设计缺陷，可导致服务器被诱导执行任意代码（RCE）。核心看点架构级漏洞：缺陷存在于官方MCP SDK中，影响Python、TypeScript、Java和Rust等所有支持语言四种攻击路径：包括未认证UI注入攻击、…

学起来 2026年4月20日