对人工智能公司的抗议声越来越大，关于谁控制互联网内容的问题 - 华尔街日报

Deepa Seetharaman and Keach Hagey

2023-07-30

一种集体的呼声正在兴起，作家、艺术家和互联网出版商意识到，席卷全球的生成式人工智能现象在某种程度上是建立在他们的工作基础上的。

这种新兴的认识引发了一场战争，涉及到这些新人工智能工具的输入和输出之间的力量，以及内容创作者是否以及如何应该得到补偿。这些争端威胁着在人工智能似乎正准备彻底改变全球经济的时刻，给这一领域带来麻烦。

包括OpenAI、其支持者微软和谷歌在内的人工智能公司，通过从互联网上搜集海量信息，并将其输入训练算法，培训系统模仿人类语言，开发了ChatGPT等生成式人工智能系统。这些公司通常表示，他们可以无偿使用数据，但他们也愿意与内容创作者讨论这个问题。

今年7月初，包括玛格丽特·阿特伍德和詹姆斯·帕特森在内的数千名作家签署了一封公开信，要求顶尖人工智能公司获得许可并支付作家的作品用于训练生成式人工智能模型。喜剧演员莎拉·西尔弗曼和其他作家还对OpenAI和Facebook母公司Meta Platforms提起了诉讼，称其在非法复制并留在互联网上的他们的书籍上训练他们的人工智能模型。

新闻出版商称其内容的未经许可使用是侵犯版权。一些出版商，包括《华尔街日报》的母公司新闻集团、Dotdash Meredith的所有者IAC以及《纽约客》、《滚石》和《政治家》的出版商，已经与科技公司讨论了他们可能因人工智能训练中使用其内容而获得报酬的方式，据知情人士透露。

美联社和OpenAI本月宣布达成协议，允许这家科技公司许可美联社档案中的新闻。

社交讨论和新闻聚合网站Reddit已开始收费以获取部分内容。埃隆·马斯克指责人工智能公司大量抓取数据，导致当时名为Twitter的公司最近决定限制某些用户能够查看的推文数量。罢工的演员和作家提到担忧好莱坞制片厂可能使用人工智能复制他们的形象或取消他们的工作。

不断升级的紧张局势反映了对写作和其他在线内容价值的更广泛反思，以及大型科技公司对人工智能技术的大量投资，他们期望这些技术将推动未来的利润。

帕特森是美国最受欢迎的作家之一，他表示发现自己的小说——超过200部——很可能在未经允许的情况下被用来训练生成式人工智能软件来完成他的工作，这个想法“令人恐惧”。

“这对创意人员来说不会有好结果，”他在一次采访中说。

图书构成了人工智能模型的训练数据的一部分，但这些公司并未披露他们的人工智能系统摄取了所有的图书，以及列表中是否包括任何仍在版权保护期内的图书。一些作者表示怀疑他们的图书被使用，部分原因是这些模型可以忠实地复述各种章节的段落。Silverman和其他作者提出的投诉声称，这些公司在非法的“影子图书馆”上训练他们的系统，这些图书受版权保护。

OpenAI 和 Google 都表示他们训练他们的 AI 模型使用“公开可用”的信息，专家表示这个短语包括各种内容，包括来自需要付费访问和盗版网站的内容。OpenAI 在一份声明中还表示尊重创作者的权利，许多创意专业人士使用 ChatGPT。

这些诉讼可能会迫使公司将许可证纳入未来的数据收集实践中，或要求对用于训练他们的模型的版权材料进行追溯支付。法院可能会要求删除基于这些数据构建的模型，这将使 AI 工作倒退数年。

数据的限制将挑战 AI 公司如何轻松地构建他们语言模型的未来版本。但律师表示，这些模型的规模也对寻求版权保护的人构成挑战。

“这些案例是新的，涉及到我们以前从未见过的规模问题，”耶鲁法学院信息社会项目的常驻研究员 Mehtab Khan 说道，该项目研究信息法律和政策。“问题变成了可行性。他们将如何接触到每一个作者呢？”

ChatGPT 的11月发布，以其实用性和奇特的能力引发了人们对生成式 AI 工具的兴趣激增，以及公司之间的竞争。

诸如ChatGPT之类的聊天机器人的力量源自被称为大型语言模型的人工智能系统。公司可以花费数千万美元甚至更多来训练一些最大的模型，使用自动程序收集从互联网各个网站获取的数据。

科技公司已经指出了公平使用的法律原则，该原则允许在某些情况下无需获得许可即可使用受版权保护的材料，包括如果最终产品与原作品有足够的不同。人工智能的支持者表示，对信息的免费获取对于类似人类学习并具有巨大潜在优势的技术至关重要，这对我们的工作和生活方式有着巨大的潜在好处。

“如果一个人可以自由获取并从互联网上的信息中学习，我希望看到人工智能系统也被允许做同样的事情，我相信这将使社会受益，”在斯坦福大学经营人工智能研究实验室并投资于人工智能公司的Andrew Ng表示。

人们也越来越担心人工智能系统可能被用来取代编剧、记者或小说家，这些人在创作作品时已经比技术公司通过对这些作品进行训练所能获得的利润要少。

人工智能领袖们普遍表示，虽然这项技术可能会损害一些职业，但也将创造新的工作类型。

上周发表这封信的作者公会已经接触了科技公司的首席执行官，讨论已经完成的训练可能需要支付的费用以及为作者达成许可协议，如果他们允许语言模型模仿他们的作品则会得到报酬。公会的首席执行官Mary Rasenberger表示，这些对话已经取得了一定的成果，但需要所有人工智能公司的参与。

Rasenberger说，这个问题将持续存在，因为这些公司需要更多的信息来推进他们的人工智能工具。她说，他们的模型“甚至在未来都不会工作，除非它们不断获得新鲜的材料。”

一位谷歌发言人表示，谷歌正在“努力了解这些产品的商业模式，并努力为网络发布者提供选择和控制他们的内容的方式。”她说，谷歌将优先考虑在开发人工智能工具时向新闻发布者发送“有价值的流量”。

最近几周的投诉和诉讼是对早期形式的生成式人工智能产生的图像和计算机代码的法律挑战的延续。

例如，去年11月，一份针对OpenAI和微软以及其子公司GitHub的集体诉讼被提交，由代表GitHub用户的律师处理。他们声称，GitHub Copilot，一种被程序员使用的生成式人工智能工具，违反了开源软件许可证，未经授权复制了许可的代码片段。

GitHub表示，它致力于负责任地创新，并相信人工智能将“改变世界构建软件的方式，提高生产率，最重要的是，让开发人员更加快乐。”

另外，针对OpenAI、微软和谷歌的集体诉讼是由互联网用户提起的，声称这些公司对网站进行抓取以训练他们的人工智能模型侵犯了用户的隐私权和版权。

OpenAI并没有透露用于训练其最新语言模型GPT-4的数据的详细信息，称竞争担忧。其先前的研究论文显示，其GPT模型的早期版本部分是在英语维基百科页面和由一个名为Common Crawl的非营利组织收集的数据上进行训练的。它还使用了OpenAI编制的一份特定Reddit帖子的语料库进行软件训练，这些帖子获得了用户评分或“karma”，至少为3分。

在四月份，Reddit，一个为OpenAI和其他构建大型语言模型的关键数据来源，宣布将开始收费直接获取大规模数据。

律师马修·巴特里克表示：“AI系统完全依赖于由人类制作的高质量数据集，如果他们破坏了这个市场，他们的系统也将崩溃。”他代表萨拉·西尔弗曼和其他几个起诉科技公司使用其内容训练生成式AI的当事人。“他们不能让艺术家破产而不自己破产。”

请写信给Deepa Seetharaman，邮箱：[email protected]，以及Keach Hagey，邮箱：[email protected]

刊登于2023年7月31日的印刷版上，标题为“关于用于训练AI的数据引发强烈抗议”。