OpenAI开源Privacy Filter:1.5B参数PII脱敏模型,可在笔记本上运行

OpenAI于4月22日发布了一款全新的个人身份信息(PII)脱敏模型——Privacy Filter,并以Apache 2.0许可协议在Hugging Face和GitHub同步开源,开发者可自由下载、定制及商业部署。

核心看点

  • 轻量级设计:总参数量15亿,采用MoE混合专家架构,每次仅激活约5000万参数,可在笔记本甚至浏览器上运行
  • 12.8万Token超长上下文:单次前向传播即可完成对整个输入序列的标注
  • 高精度脱敏:在PII-Masking-300k基准测试中F1分数达97.43%(准确率96.79%,召回率98.08%)
  • 八类敏感信息识别:覆盖姓名、地址、邮箱、电话、URL、日期、银行账号及密码/API密钥等
  • Apache 2.0开源:支持微调,可在本地运行,数据不离设备

与传统依赖规则匹配的隐私过滤工具不同,Privacy Filter内置了更深层次的语言理解能力,能够根据上下文语境识别非结构化文本中的个人信息,在准确保留公开信息的同时,对与特定个体相关联的敏感数据进行遮盖或脱敏。

该模型采用双向Token分类架构,并利用受限维特比算法解码出连贯的片段。OpenAI表示,在少量数据上进行微调即可快速提升在特定领域的准确性,且能够在高精度与高召回率之间按需调整。

这个模型的定位非常实用——用户在AI工具中粘贴文本时经常不小心带入个人信息,Privacy Filter可以作为在本地运行的预过滤层:数据在不离开用户设备的前提下完成PII检测与脱敏,然后再将已脱敏内容发送至云端LLM。这样既享受了AI服务,又有效控制了个人信息暴露风险。

OpenAI也坦诚说明,Privacy Filter并非匿名化工具,也不替代合规认证。在法律、医疗和金融等高敏感性场景中,人工审核及领域特定的评估与微调依然是必要的。

本文地址:https://www.163264.com/11206

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐