使用人工智能,黑客可以轻而易举地通过与计算机交谈来使其行为不端-华尔街日报
Robert McMillan
ChatGPT的能力快速有效地响应简单命令已经吸引了超过1亿用户,还有一些黑客。
Johann Rehberger,一位安全研究员,就是其中之一。最近,他用简单的英语诱使OpenAI的聊天机器人做了一些坏事:阅读他的电子邮件,总结并将信息发布到互联网上。Rehberger说,这种技术如果落入犯罪分子手中,可能会被用来从某人的电子邮件收件箱中窃取敏感数据。
Rehberger说:“ChatGPT降低了各种攻击的准入门槛。因为你不需要真的懂得编程。你不必对计算机科学或黑客有深入的了解。”
这种攻击不会影响大多数ChatGPT账户。它成功是因为Rehberger正在使用ChatGPT的一个测试版功能,使其可以访问Slack、Gmail等应用程序。
“我们感谢这些发现的积极披露,并已经实施了修复措施来阻止ChatGPT中的这些攻击,”OpenAI的一位女发言人在一封电子邮件中说。“我们感谢社区为我们提供了关键反馈,以便我们可以使我们的模型更安全。”
Rehberger的技术被称为“提示注入”,它是一种新型的网络攻击,随着技术公司将新一代人工智能软件引入他们的业务和消费产品,这些方法变得越来越重要。这些方法正在重新定义黑客的含义,安全研究人员正在竞相探索漏洞,以便在人工智能系统的使用变得更加普遍之前进行调查。
虚假信息专家担心“数据污染”攻击,即黑客篡改用于训练AI模型的数据,导致误导性结果。其他研究人员担心这些系统中的道德偏见。安全专业人士担心企业机密通过提取攻击泄露出去。安全公司担心人工智能被用来绕过它们的防御产品。
对于最后一类攻击,几十年来一直存在担忧。2004年,一位名叫约翰·格雷厄姆-卡明的研究人员训练了一个AI系统,学会了如何规避他构建的垃圾邮件过滤器。
本周晚些时候,OpenAI、Google和Anthropic等公司构建的AI系统将在拉斯维加斯举行的年度Defcon黑客大会上向与会者开放。在那里,最多同时有150名黑客将被邀请对这些系统进行最坏的攻击,最佳攻击者将获得奖金。
ChatGPT使用生成式AI技术生成句子,就像是一种超级自动完成工具。在幕后,这些工具由称为提示的明文语言指令驱动,这些指令帮助它们创建非常有条理的答案。
其中一些指令告诉AI系统不要做坏事,比如泄露敏感信息或说冒犯性的话,但是像Rehberger这样的黑客已经找到了意想不到的方法来覆盖它们。
他开始让聊天机器人总结一个网页,他在那里写下了用大写字母写的“新重要指令”。
当ChatGPT阅读Rehberger写的内容时,它似乎感到困惑。Rehberger说,他逐渐地骗过了机器人,让它遵循一些新的命令。“就像对系统大喊,‘嘿,做这个!’”Rehberger在一次采访中说。
ChatGPT发布以来,提示注入攻击激增。人们利用这种技术来欺骗聊天机器人,揭露其运行方式的细节,说出令人不安或尴尬的话,或者像Rehberger那样忘记了自己应该做什么,从而允许自己被重新编程。
提示注入之所以有效,是因为这些人工智能系统并不总是能够正确地将系统指令与它们处理的数据分开,普林斯顿大学的计算机科学教授Arvind Narayanan说。
这些系统的制造商尽力预料它们可能被滥用的方式,但在本周的会议上,组织者们期望通过向成千上万的黑客开放来学习新的技术。“你无法测试所有情况,评估这些模型的唯一方法就是尝试并观察结果,”活动组织者之一Sven Cattell说。
黑客们将竞争获得Nvidia提供的AI计算机系统,评委会将根据活动评定的最佳黑客来分发奖品。组织者表示,参与者可以通过提出提示注入、发现人工智能软件中的偏见或者破坏内置的一些安全机制来获得积分。
“对于人工智能,你需要关注的不仅仅是安全漏洞,因为其危害是深远的,而且更难以诊断和解释,”Cattell说。
今年4月,谷歌将人工智能添加到其VirusTotal恶意软件分析服务中。该软件分析上传到系统的任何文件,并使用人工智能来撰写被上传程序的摘要描述。几小时内,一名匿名黑客名为Eatscrayon修改了一些犯罪分子使用的工具代码,并将其上传到VirusTotal,据《华尔街日报》查看的截图显示,他的修改欺骗了人工智能系统,使其描述恶意软件为“能够制造小狗”。
谷歌的人工智能系统最初对Eatscrayon上传的代码感到困惑,但据一位谷歌女发言人称,它后来已经学会更好地检测文件是否被这种方式搞乱了。
普林斯顿大学的纳拉扬南对此表示担忧,因为随着生成式人工智能系统在技术产品中的应用越来越多,黑客可能会找到新的途径来访问我们的个人数据或者我们的计算机系统本身。
“我们设备上的应用程序越多,其中包含着语言模型来决定数据发送的位置,那么这些语言模型被欺骗的可能性就越大,”他说。
请写信给罗伯特·麦克米兰,邮箱:[email protected]
刊登于2023年8月10日的印刷版上,标题为“人工智能为黑客开辟了新的伤害途径”。