Adobe的AI Firefly使用竞争对手的AI生成图像进行训练 - 彭博社

Rachel Metz, Brody Ford

2024-04-12

Adobe决定使用公司拥有版权或公共领域内容构建Firefly，旨在将Firefly区别于快速增长的生成人工智能市场。

摄影师：Rafael Henrique/SOPA Images/LightRocket/Getty Images)

去年Adobe Inc.发布其Firefly图像生成软件时，该公司表示，这款人工智能模型主要是在Adobe Stock上进行训练的，后者是其拥有数亿授权图像的数据库。Adobe表示，Firefly是与Midjourney等竞争对手不同的“商业安全”选择，后者通过从互联网上抓取图片进行学习。

但在幕后，Adobe也在一定程度上依赖于AI生成的内容来训练Firefly，包括来自这些同样竞争对手的AI。在许多关于Firefly如何比竞争对手更安全的演示和公开帖子中，Adobe从未明确表示其模型实际上使用了一些这些竞争对手的图像。

训练流行内容创作产品背后的AI模型需要大量数据，AI技术公司在使用受版权保护材料时受到越来越多的审查。像Midjourney、Dall-E制造商OpenAI和Stable Diffusion制造商Stability AI这样的公司使用从互联网上获取图像的数据集构建其媒体生成模型，这种做法已经引起了愤怒和诉讼，许多艺术家对此表示不满。

“这显示了对负责任人工智能定义的模糊性，也说明了摆脱法律问题，社会和文化问题，或伦理问题与生成内容的困难，” 在安大略省西部的西安大略大学担任助理教授并研究人工智能社会和伦理影响的 Luke Stark说。

Adobe决定使用公司拥有版权和公共领域中的内容来构建Firefly，旨在区别于快速增长的生成人工智能市场中的AI图像工具。该公司将其宣传为对于对从几个词语中召唤图像感兴趣但担心潜在版权问题的客户来说更具道德和法律合规性的选择。Adobe表示，它不会基于其他人或品牌的知识产权生成内容，也会避免制作有害图像。Adobe表示，

AI生成的内容进入了Firefly的训练集，因为创作者被允许向Adobe的库存市场提交数百万张使用其他公司技术的图像。“Adobe库存集合中的生成AI图像是Firefly训练数据集的一小部分，” Adobe代表Michelle Haarhoff在9月份在一个为向市场贡献作品的摄影师和艺术家组织的Discord群组中写道。

Adobe表示，用于训练其AI工具的图像中相对较少的一部分 — 约5% — 是由其他AI平台生成的。“每张提交到Adobe库存的图像，包括一小部分使用AI生成的图像，都经过严格的审核流程，以确保不包括知识产权、商标、可识别的角色或标志，或参考艺术家姓名，” 一位公司发言人说。

对这种做法的批评来自公司内部：自从Firefly成立以来，就有内部人士对将AI生成的图像纳入模型的伦理和视觉效果存在分歧，根据多位熟悉其发展的员工透露，他们要求匿名，因为讨论是私密的。一些人建议随着时间的推移让系统摆脱生成图像，但其中一人表示目前没有这样的计划。

Adobe Stock在AI蓬勃发展期间增加了数百万张图片

来源：Adobe Stock，Wayback Machine

注：数字包括AI和标准图像

Adobe对竞争对手的数据收集做法提出了批评。首席战略官Scott Belsky去年表示，其他模型是建立在“公开抓取”的数据基础上的。Firefly比OpenAI的类似模型更好的一个方式是，它通过仅在经许可或自由获取的数据上进行训练，来尊重创意社区，Adobe在其网站上表示。在去年三月的一篇名为“生成AI时代的负责任创新”的博客文章中，总法律顾问Dana Rao指出，生成AI“取决于其训练数据的质量”。

“在策划的、多样化的数据集上进行训练，从根本上为您的模型在生成商业安全和道德结果方面提供了竞争优势，”他写道，同时指出Adobe在Adobe库存图像、经许可内容和版权已到期的公共领域内容上对Firefly进行了训练。

“我们推出Firefly时，我们的企业客户来找我们说，‘我们喜欢你们正在做的事情，我们真的很感激你们没有在公开互联网上窃取我们所有的知识产权，’”Adobe高级副总裁Ashley Still在本月早些时候在彭博智库活动中说。

然而，Adobe从未公开明确Firefly在某种程度上是通过竞争对手工具的图像进行训练的，这些竞争对手工具据说不太道德。然而，根据彭博查看的消息，Adobe在公司在Discord上运行的至少两个在线讨论组中概述了这些细节 — 一个是关于Adobe Stock的，另一个专门讨论Firefly的。

2023年3月，Adobe推出了Firefly作为“测试版”产品。那个月，与Adobe Stock合作的Raúl Cerón在Discord上发帖说，公司不打算使用生成的图像来训练即将推出的Firefly公开版本。

“一旦我们从测试版中推出，我们将为其准备一个新的训练数据库，不包括Gen AI内容在内，”他在六月的一篇帖子中写道。

当Adobe宣布Firefly于9月13日公开发布时，该公司还向Adobe Stock贡献者支付了一笔特别的“Firefly奖金”，以奖励“用于训练第一个商业Firefly模型的Adobe Stock贡献者”。根据与Adobe Stock社区合作的Mat Hayward在Discord上的消息，使用生成AI的贡献者也是收到奖金的人之一。

Adobe Stock的图像生成技术“增强了我们的数据集训练模型，我们决定在Firefly的商业发布版本中包含这些内容，” Hayward写道。

阅读更多： Adobe谨慎地将AI注入一切的冒险

作家兼股票图片供稿人Brian Penny提交了成千上万张使用Midjourney制作的AI生成图像到Adobe Stock，他惊讶地获得了奖金。他认为作为AI贡献者，他不应该有资格获得奖金。尽管有经济收益，但Penny认为将Firefly训练在诸如他的内容之类的内容上是一个错误，他说公司应该更坦诚地说明他们是如何训练用于创建图像的软件的。

“他们需要做到道德，他们需要更透明，他们需要做更多，”他说。

自从2022年底开始正式接受AI内容以来，Adobe Stock的库存已经激增。如今，大约有5700万张图像，约占总数的14%，被标记为AI生成图像。提交AI图像的艺术家必须指明作品是使用技术创建的，尽管他们不需要说明使用了哪种工具。为了提供AI训练集，Adobe还提供支付给供稿人提交大量照片进行AI训练的服务，比如香蕉或旗帜的图像。

在AI生成内容上进行训练可能不会使Adobe的Firefly图像生成器在商业上更加安全，只要不误导消费者，公司就不需要说明它正在进行什么训练，”专注于版权和广告法的哈佛教授Rebecca Tushnet说。但是在AI图像上进行训练，比如那些由Midjourney创建的图像，会削弱Firefly与竞争服务的独特性，她说。

“Adobe基本上希望将自己定位为更优越的选择，但它也希望获得非常便宜的输入，而人工智能是获得廉价输入的一种很好的方式，”她说。