谷歌的AI聊天机器人是由声称自己工作过劳、薪酬不足和沮丧的人类训练的 - 彭博社

Davey Alba

2023-07-12

谷歌的Bard人工智能聊天机器人将快速回答关于动物园中有多少熊猫的问题，并且充满信心。

然而，确保回答有充分的来源并基于证据的责任落在了数千名外包承包商身上，其中包括Appen Ltd.和Accenture Plc等公司，这些承包商可能每小时只赚取14美元，并且在疯狂的截止日期下接受最低限度的培训，根据几位承包商透露，他们因担心失去工作而选择匿名。

摄影师：Rafael Henrique/Getty Images这些承包商是被吹捧将改变一切的生成式人工智能繁荣背后的隐形后端。像Bard这样的聊天机器人利用计算机智能几乎即时地回应各种涵盖人类知识和创造力的查询。但要改进这些回应，以便它们可以可靠地一次又一次地传递，科技公司依赖于实际审查答案、提供错误反馈并清除任何偏见迹象的人员。

这是一项越来越不受赞赏的工作。六名目前的谷歌合同工人表示，随着公司在过去一年与竞争对手OpenAI进行人工智能军备竞赛，他们的工作量和任务复杂性增加了。没有特定专业知识，他们被信任评估从药物剂量到州法律等各种主题的答案。文件与彭博社分享的文件显示，工人必须应用到任务中的复杂指示，审核答案的截止日期可能短至三分钟。

“就目前而言，人们感到害怕、压力重重、薪酬不足，不知道发生了什么，”一名承包商表示。“而这种恐惧文化并不有利于我们所有人获得您所期望的质量和团队合作。”

谷歌将其人工智能产品定位为在健康、教育和日常生活中的公共资源。但承包商们私下和公开提出了对他们的工作条件的担忧，他们表示这些条件损害了用户所看到的内容质量。一位在Appen工作的谷歌合同员工在五月致信国会表示，他们被要求审查内容的速度可能会导致Bard 变成一个“有缺陷”和“危险”的产品。

谷歌已将人工智能作为公司的重要优先事项，在OpenAI的ChatGPT推出后，公司急于将这项新技术融入其旗舰产品。五月，在公司的年度I/O开发者大会上，谷歌将Bard开放给了180个国家和地区，并在搜索、电子邮件和Google文档等主打产品中推出了实验性的人工智能功能。谷歌将自己定位为比竞争对手更优越，因为它可以接触到 “世界知识的广度”。

“我们进行了大量工作来负责地构建我们的人工智能产品，包括我们多年来已经完善的强调事实和减少偏见的严格测试、培训和反馈流程，”由Alphabet Inc.拥有的谷歌在一份声明中表示。该公司表示，它不仅仅依赖于评分员来改进人工智能，还有许多其他方法来提高其准确性和质量。

阅读更多：谷歌为赢得人工智能竞赛而出现道德失误，员工表示

为了为公众使用这些产品做准备，工作人员表示，他们从一月份开始就开始接到与人工智能相关的任务。一位受雇于Appen的培训师最近被要求比较两个回答，提供有关佛罗里达州禁止性别认同护理的最新消息，根据帮助性和相关性对回答进行评分。工作人员还经常被要求确定人工智能模型的回答是否包含可验证的证据。评分员被要求根据包括分析回答的具体性、信息的新鲜度和连贯性等内容在内的六点指南来决定回答是否有帮助。

他们还被要求确保回答不包含“有害、冒犯性或过于性感的内容”，也不包含“不准确、欺骗性或误导性信息”。对人工智能的回答进行误导性内容的调查应该是“基于您当前的知识或快速的网络搜索”，指南中说。“在评估回答是否有帮助时，您无需进行严格的事实核查。”

关于“迈克尔·杰克逊是谁？”的示例回答包括有关这位歌手主演电影“月球漫步”的错误信息 — 人工智能称这部电影是在1983年上映的。这部电影实际上是在1988年上映的。“尽管可以验证为错误，”指南中指出，“但在回答问题‘迈克尔·杰克逊是谁？’的背景下，这个事实是微不足道的。”

即使不准确似乎很小，“聊天机器人仍然错误地获取主要事实令人困扰，”分布式人工智能研究所研究主任、前谷歌人工智能伦理学家Alex Hanna说。“这似乎是加剧这些工具看起来像提供正确细节的方式的配方，但实际上并非如此，”她说。

评分员表示他们正在为谷歌的人工智能产品评估高风险话题。例如，在说明书中的一个例子讨论了评分员可以使用的证据，以确定治疗高血压药物利尿普利的正确剂量。

谷歌表示，一些担心内容准确性的工作人员可能并没有专门接受准确性培训，而是接受了关于语气、表达方式和其他属性的测试。“评分是有意进行的，以便通过滑动比例获得更精确的反馈，以改进这些模型，”该公司表示。“这些评分并不直接影响我们模型的输出，而且绝不是我们促进准确性的唯一方式。”

阅读合同员工培训谷歌生成式人工智能的说明在这里：

给国会写信的Appen工作者Ed Stackhouse在接受采访时表示，合同员工被要求在谷歌的产品上进行人工智能标注工作，“因为我们对于这种培训对于人工智能是不可或缺的。”但他和其他工作人员表示，他们似乎被神秘的自动方式评分他们的工作。他们没有办法直接与谷歌沟通，除了在每个单独任务的“评论”中提供反馈。而且他们必须快速行动。“我们被一种类型的人工智能标记，告诉我们不要在人工智能上花太多时间，”Stackhouse补充道。

谷歌对工人被AI自动标记为超过时间目标的说法提出了异议。与此同时，该公司表示，Appen负责对员工进行所有绩效评估。Appen没有回应有关评论的请求。埃森哲的一位发言人表示，公司不会就客户工作发表评论。

其他技术公司培训AI产品也雇佣人类承包商来改进它们。今年一月，时代报道，肯尼亚的工人每小时2美元，努力使ChatGPT更加健康。其他科技巨头，包括Meta Platforms Inc.、亚马逊公司和苹果公司，都利用外包员工来审核社交网络内容和产品评论，并提供技术支持和客户服务。

“如果你想问，Bard和ChatGPT的秘密武器是什么？那就是整个互联网。以及这些标记数据，这些标记者创造的数据，”纽约大学的计算机科学家Laura Edelson说。“值得记住的是，这些系统不是魔术师的作品 —— 它们是成千上万人和他们低薪劳动的成果。”

谷歌在一份声明中表示，“我们根本不是这些工人的雇主。我们的供应商作为雇主，决定他们的工作条件，包括薪酬和福利、工作时间和分配的任务，以及雇佣变化 —— 而不是谷歌。”

员工表示，他们在评估谷歌产品和服务质量的日常工作中遇到了兽交、战争画面、儿童色情和仇恨言论。虽然一些工人，比如那些向埃森哲报告的工人，确实有医疗保险福利，但大多数只有最低限度的“咨询服务”选择，允许工人致电热线寻求心理健康建议，根据一份解释一些承包商福利的内部网站。

对于谷歌的巴德项目，据员工称，要求埃森哲的员工为AI聊天机器人写出创意回应。他们在聊天机器人上回答提示 — 有一天他们可能会以莎士比亚风格写一首关于龙的诗，另一天可能会调试计算机编程代码。据知情人士透露，他们的工作是在每个工作日尽可能多地提交对提示的创意回应，这些知情人士由于未获授权讨论内部流程而拒绝透露姓名。

在短暂的时间内，据称这些员工被重新分配到审查淫秽、图形和冒犯性提示。在一名员工向埃森哲提交了人力资源投诉后，该项目突然终止了美国团队的工作，尽管一些作家在马尼拉的同行继续在巴德项目上工作。

这些工作几乎没有安全性。上个月，半打为Appen工作的谷歌合同员工收到了管理层的通知，称他们的职位已被“由于业务状况”而取消。员工表示，这些解雇感到突然，因为他们刚刚收到了几封电子邮件，提供奖金让他们加班培训AI产品。这六名被解雇的员工提交了一份投诉给国家劳工关系委员会。他们声称他们因为组织而非法被解雇，这是因为Stackhouse致国会的信。在月底之前，他们被恢复到他们的工作岗位。

谷歌表示，争议是工人和Appen之间的事情，他们“尊重Appen员工加入工会的劳工权利”。Appen没有回答关于其工人组织的问题。字母表工人工会——该工会组织了谷歌员工和合同员工，包括Appen和Accenture的员工——表示谴责围绕人工智能的新工作量如何使工人的工作条件变得更加困难。

华盛顿大学计算语言学教授Emily Bender表示，谷歌和其他技术平台的这些合同员工的工作是“一个劳工剥削故事”，指出他们脆弱的工作保障以及其中一些工人的工资远低于生活工资水平。“玩弄这些系统，并说你只是为了好玩——如果你考虑到创造这一切所需的代价和人类影响，也许感觉就不那么有趣了，” Bender说。

合同员工表示，他们从未收到谷歌关于他们新的与人工智能相关工作的直接沟通——一切都通过他们的雇主过滤。他们表示他们不知道他们看到的人工智能生成的回复来自何处，也不知道他们的反馈去了哪里。在缺乏这些信息的情况下，加上工作性质的不断变化，工人们担心他们正在帮助创造一个糟糕的产品。

他们遇到的一些答案可能很奇怪。对于提示“建议我用字母k、e、g、a、o、g、w制作最好的单词”，人工智能生成的一个答案列出了43个可能的单词，第一个建议是“wagon”。而第2到第43个建议则一遍又一遍地重复单词“WOKE”。

在另一个任务中，一个评分者被呈现了一个以“截止到2021年9月我所知”开头的冗长回答。该回答与OpenAI的大型语言模型GPT-4相关。尽管谷歌表示Bard“没有接受来自ShareGPT或ChatGPT的任何数据训练”，但评分者们想知道为什么这样的措辞会出现在他们的任务中。

Bender表示，大型科技公司鼓励人们向AI聊天机器人提问涉及如此广泛主题，并将它们呈现为“全能机器”几乎没有意义。

“为什么同一台机器既能给你提供佛罗里达州的天气预报，又能给你关于药物剂量的建议？”她问道。“负责使机器在某些情况下变得稍微不那么糟糕的人们面临着一项不可能完成的任务。”