每天,有数百万人将他们可能不应该分享的内容粘贴到ChatGPT中。税务申报表。医疗记录。带有客户姓名的工作电子邮件。那奇怪的皮疹。他们发誓下周会更换的API密钥。
OpenAI刚刚发布了一款免费工具,可以在聊天机器人看到之前清理所有这些内容。
它叫做 隐私过滤器,本周以Apache 2.0许可证发布,这意味着任何人都可以下载、使用、修改并出售基于它制作的产品。该模型托管在 Hugging Face 和GitHub上,包含15亿个参数(衡量模型知识潜力的指标),足够小可以在普通笔记本电脑上运行。
把它想象成隐私的拼写检查。你将一段文本输入,它便将所有敏感部分替换为像[私人姓名]或[账号]这样的通用占位符,返回同样的文本。
还记得人们如何< a href="https://reveal.epstein-docs.org" data-wpel-link="external" rel="nofollow external noopener">解密杰弗里·爱泼斯坦文件中的部分内容,因为唐纳德·特朗普政府只是用黑色标记试图隐藏那些秘密吗?如果他们使用了这个模型,那就不成问题了。
OpenAI的隐私过滤器实际上做了什么
隐私过滤器扫描八种类别的个人信息:姓名、地址、电子邮件、电话号码、网址、日期、账号和像密码和API密钥这样的秘密。它在一次扫描中读取整个文本,然后标记敏感部分,以便可以进行掩盖或编辑。
以下是OpenAI公告中的一个真实示例。你粘贴的电子邮件是:
“再次感谢今天早些时候的会议。(...) 作为参考,项目文件列在4829-1037-5581下。如果你这边有什么变动,请随时回复此邮件到maya.chen@example.com或拨打我的电话+1(415)555-0124。”
隐私过滤器返回:
“再次感谢今天早些时候的会议(...) 作为参考,项目文件列在[账号]下。如果你这边有什么变动,请随时回复此邮件到[私人电子邮件]或拨打我的电话[私人电话]。”
它改变了实际文本,而不是使用黑盒和标记。
许多工具已经尝试捕捉电话号码和电子邮件地址。它们通过寻找模式来工作,比如“三个数字,破折号,三个数字”。对于明显的情况这样做很好,但一旦事情变得依赖于上下文,这种方法就会失效。
“安妮”是一个私人姓名还是一个品牌?“123主街”是一个人的家还是商店的地址?模式匹配无法判断。隐私过滤器可以,因为它实际上读取周围的句子。
该模型似乎在检测这些细微差别方面做得相当不错。OpenAI报告称,其模型在使用PII-Masking-300k数据集进行的标准基准测试中得分为96%,而同一测试的修正版本则达到了97.43%。
换句话说,它成功检测私人信息的准确率为96%。作为一个关注隐私的人,你的工作是处理剩下的4%。
“本地运行”部分正是关键
隐私爱好者可能会认为这是好事:OpenAI制作了一个足够小且强大的模型,可以在你的机器上运行,这意味着你的文本永远不会离开你的计算机进行清理。
这很重要,因为另外一种选择,即大多数公司当前使用的,是将你的原始数据发送到某个声称安全的云服务,然后相信他们。这种安排并不总是持久。
它还免费且开源,因此研究人员可以调查、改进并使用它,而无需担心法律后果。
数据在你的笔记本电脑上进行清理,只有经过清理的版本才会传播到其他地方。如果你经营小型企业,这意味着你可以使用AI来总结客户电子邮件,而不将客户的姓名交给第三方。自由职业律师可以将案件记录输入到聊天机器人中,而不会泄露客户信息。医生可以在不泄露患者身份的情况下起草患者转诊。开发者可以用AI调试代码,而无需直接将自己的API密钥粘贴到提示中,这显然是一种没人谈论的入门仪式。
对于普通人来说,使用场景则更加平常和普遍。你想请ChatGPT重写一封发给房东的愤怒电子邮件,但你不喜欢将你的家庭地址提供给OpenAI。隐私过滤器一步到位解决了这个问题。
在本地运行开源AI模型曾经是对拥有游戏显卡的业余爱好者的项目。现在不再是了。像LM Studio这样的工具现在使它变得和安装Spotify一样简单。
它不是
OpenAI明确指出了局限性。该公司警告说,隐私过滤器“不是匿名工具、合规认证或政策审查的替代品。”
翻译:不要将其作为医院、律师事务所或银行的唯一防线。它可能会遗漏不寻常的标识符,过度编辑短句,并在不同语言之间表现不一致。它是一个工具,而不是合规勾选项。毕竟,96%的准确率并不是100%的准确率。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。