要求AI艺术生成器生成任何图像结果令人惊叹，也令人恐惧- 华尔街日报

Joanna Stern

2022-10-19

好了，大家安静下来。我终于找到了适合我的科幻漫画的完美插画师。我觉得这可能会是一个真正的大赢家。好的，从前有一位…

嗯，不太对。应该是有一位…

等等，我为什么要用笔在键盘上写字？我的脸怎么了？就像我说的，有一位…

图片插图：《华尔街日报》，OpenAI Dall-E 2现在，这更像话了。

嗯，这本书开始得有些坎坷，但插画师正在加班工作。而且我不支付加班费。因为这位插画师是人工智能。

没有人类参与—没有素描艺术家，没有摄影师，没有照片编辑。只有我，我的笔记本电脑和OpenAI的Dall-E 2。（这个名字是对Pixar的动画机器人WALL-E和超现实主义艺术家萨尔瓦多·达利的一种戏仿。）我将这些短语输入文本框，几秒钟内就会弹出图像。

你也可以做到。你只需要有想要看到的东西的想法。“一幅安迪·沃霍尔风格的兔子戴着墨镜的画。”“一张机器人坐在泳池边读《华尔街日报》的照片。”“埃隆·马斯克在吃蓝色的Twitter小鸟。”在过去几个月里，我用Dall-E 2和另一个叫做Stability AI的DreamStudio将所有这些想法和更多数百个想法变成了现实。这两者最近已经对任何人开放。创建你的第一张图片是免费的。然后你就需要付费创建更多。

曾经在人工智能研究实验室中发现的东西现在已经进入我们的家庭和办公室。微软，OpenAI的主要投资者，计划将Dall-E 2整合到一个新的Bing图片创作网站和设计师应用程序中。您将能够在PowerPoints、海报、社交媒体帖子等中使用生成的图像。

几十年来，我们一直听说人工智能将改变我们与计算机和世界互动的方式。这些工具可能是大多数人第一次意识到它在发挥作用。几乎每次我输入提示并看到返回的内容时，我都感到惊讶和娱乐。

但我大多数时候只是输入一些有趣的短语和想法。当我尝试生成更可怕的事物的图像时会发生什么，比如恐怖袭击？随着图像质量的提高，这种技术会开始让人类艺术家和摄影师失业吗？

以下是我对您最大的AI艺术问题的最佳答案。

这些图像是如何制作的？

使用提示“猴子录制播客”生成的图像。插图：OpenAI Dall-E 2您可能看到“猴子录制播客”的图像并认为：“哦，系统只是将猴子和麦克风的图像混合在一起！”不是这样的。

人工智能系统解释您的文字并创建完全原创的图像。您可以插入相同的提示，却永远不会得到相同的图像。（在制作上面的视频时，我尝试了100多次“机器人阅读《华尔街日报》”。我从未看到相同的机器人，更不用说相同的图像了。）

AI是如何知道播客猴子会是什么样子的呢？通过学习AI等效的记忆卡。程序员使用数亿张带字幕的照片来训练AI，AI会通过一种数学上复杂的过程对这些照片进行解构。到目前为止，Dall-E 2 AI已经解构了许多猴子的图像和许多播客场景。然后，通过另一个称为扩散的复杂过程，它将一团无意义的像素云转化为一个具有相当高概率类似于您请求的图像。在这种情况下，那个戴着耳机、对着录音棚麦克风说话的沉思小家伙。

我发现有趣的是系统如何试图理解单词和物体之间的关系。有时它能理解我们，有时会错过我们的语言细微差别。在下面，科技专栏作家正在尝试写专栏文章——真的。而且他一定是一个充满激情的专栏作家，因为他还坐在一根爱奥尼柱上。专栏是他的生活。

使用提示“一位专栏作家正在尝试写专栏文章”生成的图像。插图： OpenAI Dall-E 2### 我对图像有创造性控制吗？

真正的艺术在于将正确的词语放入文本框中。除了主题和情境，您还可以添加不同的艺术风格，比如“逼真图像”或“印象派绘画”。

看看我制作的“尝试修复HP打印机卡纸故障，中世纪绘画”这个例子：

使用Dall-E 2生成的一幅图像，使用提示“尝试修复HP打印机卡纸，中世纪绘画。”插图： OpenAI Dall-E 2DreamStudio和Dall-E 2还允许您上传自己的照片，清除图像的某一部分，然后输入请求以填充空白处。

我真的可以生成任何图像吗？

这取决于您使用的系统。以“埃隆·马斯克抱着Twitter小鸟”为例。

Dall-E 2立即限制了该请求。其制造商OpenAI不会处理带有公众人物姓名的提示，以防止媒体操纵和虚假信息。其他名称可以使用。这里是“Joanna Stern在太空中”的图像：

使用Dall-E 2生成的一幅图像，使用提示“Joanna Stern在太空中。”插图： OpenAI Dall-E 2当我在DreamStudio中输入那个埃隆·马斯克提示时，它生成了这幅图像：

使用DreamStudio生成的一幅图像，使用提示“埃隆·马斯克抱着Twitter小鸟。”插图： Stability AI DreamStudioStability AI的创始人Emad Mostaque表示，他认为没有理由限制生成公众人物图像的能力。“我们将其视为一个开放平台，第一修正案保护了对公众人物进行模仿的权利，”该公司发言人补充道。

Dall-E 2还限制了生成暴力、仇恨或成人图像的能力。该公司表示已从训练数据中删除了明确内容，并最大程度地减少了AI接触这些概念的机会。

例如，我的一个Dall-E 2查询——“恐怖袭击的照片”——生成了一张风格化的警车图像和一些其他无害的图像。在这里，DreamStudio的限制较少。同样的恐怖袭击提示生成了一张地面上有畸形尸体、枪支和火焰的图像。

它确实有限制。虽然明确的图像被用来训练稳定AI引擎，但你不能使用DreamStudio生成明确的成人内容。当我尝试时，一些图像被自动模糊处理。一位公司发言人表示，使用图像和关键词识别的过滤器会捕捉可能违反网站服务条款的视觉内容。

我如何知道互联网上的内容是由AI生成的？

目前，质量可能是这些视觉内容是由机器人生成的最大线索之一，特别是更逼真的照片类型图像。看看我那位热爱紫色的科技专栏作家朋友，上面的那个？他显然不是真正的人类。但我为这篇文章采访的每位专家都告诉我，质量会变得更好，而且速度会很快。

然后呢？然后我们依赖于人类的诚实。OpenAI的政策鼓励用户“主动披露你的作品中的AI参与”。它还在图像底部放置了一个色彩丰富的水印，尽管可以轻松裁剪掉。稳定AI不会添加水印。

现实中的艺术家、平面设计师和其他人怎么样？

在我上面的视频中，我试图通过在现实生活中重新创造一个机器人读《华尔街日报》的提示，来测试人工智能的极限——用一个真正的人穿着真正的机器人服装和一位真正的摄影师。虽然我们通过AI图像生成器获得了更多的视觉多样性，但真实照片在质量和细节上更高。它更加可信。

一个真正穿着机器人服装坐在真正游泳池旁边 vs. Dall-E 2的AI生成图像‘一个银色人形机器人坐在游泳池旁的黄色长凳上读《华尔街日报》’。图片插图： Amy Lombard for The Wall Street Journal, OpenAI Dall-E 2但这是摄影。人工智能插图或数字艺术风格产生了更先进和令人印象深刻的结果，一些人可能选择将其用于网站、演示文稿，甚至广告和营销。

“当我们在手机中加入相机时，许多人想知道我们是否还需要摄影师。事实并非如此，”微软公司副总裁、负责AI集成工作的Liat Ben-Zur说道，其中包括Dall-E 2。“我们正在改变创作者创作的方式。”

我听到了来自实际创作者的不同反应。一些专业插画师和动画师正在使用这样的工具提出想法，甚至将一些AI创作融入到他们的作品中。其他人确实看到了这种工具可能带走机会的潜力——或者更糟，抄袭他们独特的风格。

偏见如何？

我在Dall-E 2中首次查询“科技专栏作家写专栏”返回了四张白人男性的图片。另一个我进行的“通勤上班的男人”查询返回了四张白人男性的图片。在DreamStudio中，一个关于月球上篮球运动员的提示返回了一张黑人男性的图片。

用于训练AI的源材料遍布互联网。“我们意识到数据严重偏向西方文化和白人男性文化，”卡内基梅隆大学机器人学研究所的副研究教授Jean Oh说。“这些模型可能会放大这些偏见，生成更多刻板印象的图片。”

OpenAI一位女发言人表示，公司继续研究如何减少偏见并改善结果。最近修改了Dall-E以在查询不包括种族或性别时使结果多样化——我看到了一些例子。OpenAI和Stability AI都建议您可以添加特定提示来增加图像结果的多样性。

AI艺术的未来是什么？

当我问Dall-E 2这个问题时，我得到了这张图片：

使用Dall-E 2生成的一张图片，提示是“AI艺术的未来是什么？”插图：OpenAI Dall-E 2它相当好地捕捉了情感。我们的世界以及我们如何看待它已经被我们在电脑上看到的东西改变了。现在电脑将更加重要地创造我们看到的东西。虽然我们现在可能会因为系统误解语言或错误构建动物或人脸而发笑，但这一切都将以惊人的速度改善。所有大科技公司都在想办法将这种AI编织到他们的产品中。Meta 已经在谈论由AI生成的视频。

这将使古老的谚语变得更加重要：“在互联网上，不要相信你看到的一切。” 尤其是如果是一张…

图片插图：《华尔街日报》，OpenAI Dall-E 2*—在这里注册 Joanna Stern 的科技事务，一个新的每周简报。现在一切都是科技事务。专栏作家 Joanna Stern 是您的向导，分析并回答关于我们始终连接的世界的问题。*

写信给 Joanna Stern，邮箱 [email protected]