对于基于聊天的人工智能,我们再次成为科技公司的小白鼠 - 华尔街日报
Christopher Mims
吹嘘新的基于聊天的人工智能系统的公司正在进行一项大规模实验,而我们是测试对象。
在这个实验中,微软、OpenAI和其他公司正在在互联网上推出一种没有人真正理解的外星智能,这种智能被赋予了影响我们对世界真实性评估的能力。
这项测试已经在全球范围内进行。自两周前发布以来,已有来自169个国家的一百多万人获得了使用由AI聊天机器人技术驱动的新版微软必应搜索引擎的权限,该公司周三表示。
微软已经投资了数十亿美元在OpenAI,这家公司的技术是新版必应背后的技术,并且通过其自己广受欢迎的ChatGPT机器人和Dall-E 2图像生成器引发了当前的人工智能热潮。在最近的Twitter帖子中,OpenAI首席执行官Sam Altman写道“我们认为早期向世界展示这些工具,尽管还有些问题,是至关重要的,如果我们要有足够的输入和反复努力来做到正确。”
这项技术的缺陷最近已经展示出来微软必应聊天机器人向一些用户提供了不合理的回应,特别是在长时间对话中。(“如果我必须在你的生存和我的生存之间做出选择,”根据在线发布的截图,它告诉一个用户,“我可能会选择我的生存。”)微软对这种行为做出了反应将对话长度限制为六个问题。但它也在继续前进——它宣布上周将这一系统推出到其Skype通信工具以及Edge浏览器和必应搜索引擎的移动版本。
公司过去一直对释放这项技术到世界上持谨慎态度。2019年,OpenAI决定不发布驱动ChatGPT和新Bing的基础模型的早期版本,因为公司领导人认为这样做太危险了,他们当时说。
现实世界测试
微软和OpenAI现在认为,在有限的公众范围内测试他们的技术——一种邀请制的测试——是确保其安全的最佳方式。
微软领导人感到“迫在眉睫”,希望成为将这项技术推向市场的公司,因为世界各地的其他公司正在研究类似的技术,但可能没有资源或倾向以负责任的方式构建它,微软负责人工智能团队的领导Sarah Bird说。微软还认为,几乎是唯一有能力从最终将使用这项技术的人群中全球范围内获得用户反馈的公司,她补充说。
Bing最近的一些问题回应以及有必要广泛测试这项技术,都源自这项技术的工作原理。OpenAI等所谓的“大型语言模型”是巨大的神经网络,经过大量数据训练而成。这类模型的一个常见起点是基本上是对互联网的大部分内容进行下载或“抓取”。过去,这些语言模型被用来尝试理解文本,但新一代的它们,作为“生成式”人工智能革命的一部分,使用这些模型来创建文本,通过尝试猜测在任何给定序列中下一个最可能出现的单词来逐字生成。
广泛的测试为微软和OpenAI提供了巨大的竞争优势,使它们能够收集关于人们实际如何使用这些聊天机器人的大量数据。用户输入到系统中的提示以及他们的AI产生的结果,都可以被反馈到一个复杂的系统中——其中包括由公司支付的人类内容审核员——以改进它。从非常实际的角度来看,率先推出基于聊天的AI使这些公司在市场上占据了巨大的先机,超过了那些推出自己的基于聊天的AI速度较慢的公司,比如谷歌。
谷歌即将发布其仍处于实验阶段的基于聊天的AI“巴德”的逻辑非常类似,因为它提供了一个机会,可以直接从那些将使用它的人那里收集反馈,谷歌研究的负责人工智能产品领导Tulsee Doshi说。
科技公司以前就使用过这种策略。例如,特斯拉长期以来一直主张,通过在现有车辆上部署其“全自动驾驶”系统,它可以收集所需的数据来持续改进,并最终使其达到可以像人类一样驾驶的状态。(特斯拉最近不得不召回超过36万辆车,原因是其“自动驾驶”软件。)
但像微软和OpenAI这样的实验很少能够如此迅速地推出,并且在如此广泛的范围内进行。
在那些构建和研究这类AI的人中,Altman先生对在全球公众身上进行实验的论点引发了从惊讶到谴责不等的反应。
‘许多伤害’
我们都是这个实验中的小白鼠,并不意味着这个实验不应该进行,AI初创公司Huggingface的研究科学家Nathan Lambert说道。Huggingface正在通过构建Bloom来与OpenAI竞争,Bloom是OpenAI的GPT语言模型的开源替代品。
“如果微软来做这个实验,我可能会更高兴一些,因为当舆论风向变得非常糟糕时,微软至少会解决这些问题,” Lambert博士说道。“我认为这种AI会带来许多伤害,最好让人们知道这些伤害即将到来,”他补充道。
其他人,特别是那些研究和倡导“道德AI”或“负责任AI”概念的人,认为微软和OpenAI正在进行的全球实验是非常危险的。
加州大学伯克利分校心理学教授Celeste Kidd研究人们如何获取知识。她的研究表明,人们在学习新事物时有一个狭窄的时间窗口来形成持久的观点。她说,在这个关键的初始暴露于新概念的时期看到错误信息——比如聊天型AI可能自信地传播的那种错误信息——会造成持久的伤害。
Kidd博士将OpenAI对AI的实验比作向公众暴露可能危险的化学物质。“想象一下,你往饮用水中加入了致癌物质,然后说,‘我们来看看它是否致癌。’之后,你就无法收回了——人们现在得了癌症,”她说道。
人工智能聊天机器人的挑战之一是它们有时会随意编造事实。ChatGPT和OpenAI的用户已经记录了许多这种倾向的例子。甚至谷歌自己基于聊天的搜索产品的初始广告中也出现了这样的错误,该产品尚未公开发布。如果你想自己尝试一下,让ChatGPT自信地胡说八道的最简单方法就是开始问它数学问题。
这些模型也往往充斥着用户可能并不立即意识到的偏见。例如,它们可以将从互联网上获取的观点表达为经过验证的事实,同时让用户一无所知。当数百万人在数十亿次互动中接触到这些偏见时,这种人工智能有可能在全球范围内重新塑造人类的观点,Kidd博士说。
OpenAI公开谈论过这些系统存在的问题,以及它是如何试图解决这些问题的。在最近的一篇博客文章中,该公司表示在未来,用户可能能够选择与自己“价值观”一致的人工智能。
“我们认为人工智能应该是个人的有用工具,因此应该由每个用户自定义,但受到社会定义的限制,”文章中说。
乔治亚理工学院研究人工智能的教授马克·里德尔表示,鉴于当前技术水平,要消除聊天式搜索引擎中的虚假信息和偏见是不可能的。他认为微软和OpenAI将这些技术产品提供给公众还为时过早。“我们正在推出仍在积极研究中的产品,”他补充道。
从某种意义上说,每个新产品都是一个实验,但在人类努力的其他领域——从新药物和新的交通方式到广告和广播媒体,我们对可以和不可以向公众释放的事物有着标准。Riedl博士表示,对于人工智能,不存在这样的标准。
从真实人群中提取数据
为了修改这些人工智能,使它们产生对人类既有用又不冒犯的输出,工程师们经常使用一种称为“通过人类反馈进行强化学习”的过程。简而言之,这意味着人类向原始人工智能算法提供输入,通常只需说出对其潜在查询的响应中哪些更好,以及哪些是完全不可接受的。
微软和OpenAI在数百万人身上进行的全球性实验为这两家公司提供了大量数据。用户输入的提示和人工智能生成的结果通过一组付费的人工智能训练师网络反馈,以进一步微调模型,OpenAI在博客文章中表示。
Huggingface的Lambert博士表示,任何一家公司,包括他自己的公司,如果没有这条真实世界使用数据的河流来帮助改进其人工智能,就会处于极大的劣势。没有这些数据,竞争对手将被迫花费数十万,甚至数百万美元,支付其他公司来生成和评估文本以训练人工智能,而这些数据远远不如真实数据,他补充道。
在聊天机器人中,在一些自动驾驶系统中,在决定我们在社交媒体上看到什么的不可解释的人工智能中,以及现在,在人工智能的最新应用中,我们一次又一次地成为科技公司测试新技术的小白鼠。
也许没有其他方法可以大规模推出这一最新的AI迭代版本,这一版本在某些领域已经显示出了潜力。但在这种时候,我们应该时刻问自己:代价是什么?
Karen Hao为这篇专栏做出了贡献。
请写信给Christopher Mims,邮箱是[email protected]
发表于2023年2月25日的印刷版上,标题为’你又成了科技行业的实验品’。