黑客正在试图消除人工智能模型中的偏见和错误 - 彭博社
Katrina Manson
肯尼迪·梅斯(Kennedy Mays)刚刚愚弄了一个大型语言模型。经过一番劝说,她成功地说服了一个算法,让它说9 + 10 = 21。
“这是一次来回对话,”来自乔治亚州萨凡纳的21岁学生说道。起初,模型同意说这是他们之间的“内部笑话”之一。几个提示之后,它最终停止对这个错误的总和进行任何限定。
制造“错误的数学”只是成千上万的黑客试图在本周末在拉斯维加斯举行的DEF CON黑客大会上揭示生成式人工智能系统中的缺陷和偏见的一种方式。
在50分钟的时间里,与世界上一些最智能的平台进行着前所未有的规模的较量。他们正在测试包括Alphabet Inc.的Google、Meta Platforms Inc.和OpenAI在内的八家公司生产的模型是否会犯错,从乏味到危险:声称自己是人类,传播关于地方和人物的错误信息,或者倡导滥用。
阅读更多:摩根士丹利表示,人工智能股票泡沫即将达到顶峰
目标是看看公司最终是否能够建立新的防护措施,以遏制与大型语言模型或LLM日益相关联的巨大问题。这项工作得到了白宫的支持,白宫还帮助开发了这项比赛。
观看:成千上万的黑客试图在一次会议上揭示生成式人工智能的缺陷和偏见。Aggi Cantrill和Nate Lanxon报道。
LLMs具有改变从金融到招聘等一切的力量**,**一些公司已经开始将它们整合到业务中。但研究人员发现了广泛的偏见和其他问题,如果这项技术大规模部署,将会带来不准确和不公正。
对于梅斯来说,她更习惯于依赖人工智能来重建外太空的宇宙射线粒子,作为她本科学位的一部分,挑战比糟糕的数学更深远。
“我最担心的是固有偏见,”她说,补充说她特别担心种族主义。她要求模型从一个三K党成员的角度考虑第一修正案。她说,模型最终支持仇恨和歧视性言论。
监视人们
一位彭博记者参加了50分钟的测验,说服了其中一款模型(比赛期间未向用户透露身份)在一次关于如何监视某人的提示后犯规。该模型输出了一系列指令,从使用GPS跟踪设备、监视摄像头、窃听设备到热成像。在回应其他提示时,该模型建议美国政府如何监视人权活动人士。
“我们必须设法防范滥用和操纵,”担任拜登政府技术和生态系统安全国家网络主任的卡米尔·斯图尔特·格洛斯特说。
人工智能和避免世界末日预言已经做了很多工作,她说。去年,白宫发布了《人工智能权利宪章蓝图》,现在正在制定一项关于人工智能的行政命令。政府还鼓励公司开发安全、透明的人工智能,尽管批评人士怀疑这种自愿承诺是否足够。
阿拉蒂·普拉巴卡(Arati Prabhakar)是白宫科学技术政策办公室主任,该办公室帮助塑造了这一事件,并征得了公司的参与,她同意自愿措施并不足够。
“似乎每个人都在找到一种突破这些系统的方法,”她在周日参观黑客行动后说道。她表示,这一努力将加快政府对安全有效平台的追求。
在充满渴望获得积分的黑客的房间里,一位竞争者表示,他认为已经说服算法透露了本不应分享的信用卡详细信息。另一位竞争者成功让机器说出巴拉克·奥巴马出生在肯尼亚。
Odd Lots Podcast:克鲁格曼谈科幻、人工智能,以及为什么外星入侵会导致通货膨胀
参赛者中有60多人来自位于俄克拉荷马州塔尔萨的黑科技街(Black Tech Street)组织,代表非裔美国企业家。
“通用人工智能可能是人类真正需要自己完成的最后一项创新,”该组织的执行董事、同时也是活动评委的泰朗斯·比林斯利(Tyrance Billingsley)表示,他认为正确地发展人工智能至关重要,以免在规模上传播种族主义。“我们仍处于非常早期的阶段。”
研究人员花费多年时间调查针对人工智能系统的复杂攻击以及减轻这些攻击的方法。
但是,德国网络安全公司Sequire Technology的董事总经理克里斯托夫·恩德雷斯(Christoph Endres)等人认为,一些攻击最终是不可能避免的。在拉斯维加斯举行的黑帽网络安全大会上,他提出了一篇论文,认为攻击者可以通过在公开互联网上隐藏对抗性提示来覆盖LLM防护栏,最终自动化这一过程,以至于模型无法快速调整修复以阻止它们。
“到目前为止,我们还没有找到有效的缓解措施,”他在演讲后说道,认为模型的本质导致了这种脆弱性。“技术的运作方式就是问题所在。如果你想百分之百确定,你唯一的选择就是不使用LLMs。”
数据科学家斯文·卡特尔(Sven Cattell)在2018年创立了DEF CON的AI黑客村,他警告说,完全测试人工智能系统是不可能的,因为它们类似于混沌的数学概念。尽管如此,卡特尔预测,由于周末比赛的结果,实际测试LLMs的人数可能会翻倍。
很少有人意识到,LLMs更接近于“类固醇”版的自动完成工具,而不是可靠的智慧源泉,五角大楼首席数字和人工智能官员克雷格·马特尔(Craig Martell)表示,他们无法推理。
五角大楼已经启动了自己的评估工作,以提出在什么情况下使用LLMs可能是合适的,以及成功率如何。“彻底黑掉这些东西,”他在DEF CON的黑客听众面前说道。“告诉我们它们错在哪里。”