公司寻求人工审核员来保持人工智能应用程序的合规性 - 华尔街日报

Belle Lin

2023-10-24

分析师表示，内容安全过滤器很快将成为企业签署任何生成式人工智能工具供应商销售的必备条件。照片： dado ruvic/路透社权衡生成式人工智能的风险和收益的企业面临的挑战与社交媒体平台长期以来一直在努力解决的问题相同：防止技术被用于恶意目的。

借鉴这些平台的做法，企业技术领导者正在寻求一种由基于软件的“防护栏”和人工审核员组合使用的方法，以使其使用在规定的范围内。

像OpenAI的GPT-4这样的AI模型是在大量的互联网内容上进行训练的。在给定正确提示的情况下，一个大型语言模型可以生成受网络最黑暗角落启发的大量有害内容。这意味着内容审核需要在源头进行——当AI模型进行训练时——以及在它们产生的输出上进行。

总部位于加利福尼亚州山景城的Intuit公司最近发布了一款生成式人工智能助手，为客户提供财务建议。Intuit Assist目前仅对有限数量的用户开放，它依赖于在互联网数据上进行训练的大型语言模型和Intuit自己的数据进行微调。

该公司现在计划建立一个由八名全职审核员组成的团队，审查大型语言模型驱动的系统中进出的内容，包括帮助防止员工泄露敏感公司数据，公司首席信息安全官Atticus Tysen表示。

“当我们试图对财务方面做出真正有意义、具体的答案时，我们不知道这些模型会表现得有多好。因此，对我们来说，将人类纳入其中是很重要的，” Tysen说道。

Intuit自己开发的内容审核系统目前处于早期阶段，使用一个独立的大型语言模型自动标记它认为是不当内容的内容，比如粗话，Tysen说。例如，一个顾客问与财务指导无关的问题，或者试图进行提示注入攻击，也将被系统自动屏蔽，他说。这些攻击可能包括诱使聊天机器人透露客户数据或其工作原理。

然后，人工审核员将收到警报以审查文本，并可以将其发送给模型构建团队，以提高系统阻止或发现有害内容的能力。Intuit的客户也可以通知公司，如果他们认为他们的提示被错误地标记，以及如果他们认为AI助手生成了不当内容。

虽然目前还没有专门从事AI内容审核的公司，但Intuit正在用接受过社交媒体帖子审核培训的承包商来补充其员工。像所谓的提示工程师一样，AI内容审核员可能会成为由AI创造的新工作机会类别的一部分。

最终，Intuit的目标是让其审核AI模型为其AI助手做大部分内容审核工作，Tysen说，减少人类接触有害内容的数量。但他表示，目前生成式AI还不足以完全取代人工审核员。

社交媒体公司，如Meta，即Facebook和Instagram的所有者，长期以来一直依赖外包的人工审核员工来审查和过滤其平台上的攻击性帖子，提供最佳实践，并为AI审核的未来道路提供了一个警示故事。

近年来，像OpenAI这样的AI公司已经雇佣工人来审查和分类在线获取的有害文本，并由AI自身生成。这些分类的段落被用来创建ChatGPT的AI安全过滤器，以防止聊天机器人的用户接触到类似内容。

OpenAI还与Microsoft合作，其合作伙伴和最大支持者，开发了Microsoft称之为Azure AI内容安全服务的产品，该产品使用AI自动检测“不安全”的图像和文本，包括仇恨、暴力、性和自残内容。Microsoft正在使用其安全服务来防止其自己的生成式AI工具中的有害内容，包括GitHub Copilot和Office软件的Copilots。

“这些AI系统确实非常强大，只要给予正确的指令，就可以做各种不同的事情，”Microsoft AI平台企业副总裁Eric Boyd说道。

其他科技领袖正在调查人工审核的潜力，或者投资于像微软这样的第三方软件。分析人士表示，内容安全过滤器很快将成为企业签署任何生成式人工智能工具供应商销售的必备条件。

辛尼奥斯健康公司首席信息和数字官Larry Pickett表示，这家总部位于北卡罗来纳州莫里斯维尔的生物制药服务公司将考虑在明年某个时候雇佣内容审核员。与此同时，AI模型的训练数据将根据具体情况进行审查，并接受人类反馈。

“我们正在以一种精细的方式进行，但更广泛地说，对于进行一些监控和监督的想法是有很多价值的，” Pickett说。

对“负责任的人工智能”越来越感兴趣，这旨在使人工智能算法更加透明或可审计，并减少其意外的负面结果，”负责负责和道德人工智能使用的Forrester分析师Brandon Purcell说。

“每个人都对此感兴趣，因为他们意识到，如果我们做得不对，我们将面临声誉风险、监管风险、收入风险，”他说。

请写信给Belle Lin，邮箱为[email protected]

刊登于2023年10月24日的印刷版上，标题为“Intuit Looks to Humans to Rein In AI”。