生成式人工智能的下一个领域是视频 - 彭博社

Rachel Metz

2023-03-20

Runway（此处加速）的AI生成视频示例。

来源：Runway AI Inc.

人工智能在静态图像方面取得了显著进展。几个月来，像Dall-E和Stable Diffusion这样的服务一直在创作美丽、引人注目，有时令人不安的图片。现在，一家名为Runway AI Inc.的初创公司正在迈出下一步：AI生成视频。

周一，总部位于纽约的Runway宣布推出其Gen 2系统，该系统可以根据用户提示的几个词生成短视频片段。用户可以输入他们想要看到的描述，例如：“一只在雨中行走的猫”，它将生成一个大约3秒的视频片段，展示这一场景，或者类似的场景。另外，用户还可以上传一张图像作为系统的参考点以及提示。

该产品并非所有人都可以使用。Runway是一家提供基于AI的电影和编辑工具的公司，宣布通过等待列表推出了其Gen 2 AI系统；人们可以在公司计划每周向其中添加更多用户的私人Discord频道上注册以获得访问权限。

这一有限的推出代表了实验室之外最引人注目的文本到视频生成实例。Alphabet Inc.的Google和Meta Platforms Inc.去年展示了他们自己的文本到视频努力——展示了短视频片段，主题包括一只洗碗的泰迪熊和湖上的帆船——但两家公司都没有宣布计划将这项工作推向研究阶段之外。

Runway自2018年以来一直致力于AI工具，并在去年晚些时候筹集了5000万美元。这家初创公司帮助创建了稳定扩散的原始版本，这是一种文本到图像的AI模型，后来被Stability AI公司推广和进一步开发。

在上周的独家现场演示中，Runway联合创始人兼首席执行官Cris Valenzuela，这位记者对Gen 2进行了测试，提出了“沙漠景观的无人机镜头”这个提示。几分钟内，Gen 2生成了一个仅几秒钟长的视频，有点失真，但无可否认地看起来像是在沙漠景观上空拍摄的无人机镜头。视频画面右上角有蓝天和云彩，太阳升起（或落下，也许）在视频画面的右下角，它的光线照亮了下方的棕色沙丘。

一幅来自AI生成视频样本的静止图像。来源：Runway AI Inc.Runway从自己的提示中生成的几个其他视频展示了系统当前的优势和劣势：一个眼球的特写图像看起来清晰而且相当类似人类，而一个徒步穿过丛林的远景显示出它可能仍然存在生成逼真的腿部和行走动作的问题。Valenzuela表示，该模型仍然没有完全“弄清楚”如何准确地描绘物体移动。

“你可以生成一场汽车追逐戏，但有时汽车可能会飞走，”他说。

在像DALL-E或Stable Diffusion这样的文本到图像模型中，详细的提示可能会导致更详细的图像，但Valenzuela表示，对于Gen 2来说，简单就是更好。他认为Gen 2是为艺术家、设计师和电影制作人提供另一种工具的方式，可以帮助他们的创作过程，并使这些工具比过去更具价格优势和易获取性。

该产品是基于一个名为Gen 1的现有AI模型构建的，Runway在二月份开始在Discord上私下测试。Valenzuela表示，目前已经有成千上万的用户在使用。该AI模型要求用户上传视频作为输入源，它将使用这个视频（以及用户的指导，比如文本提示或静态照片）来生成一个新的、无声的3秒视频。例如，你可以上传一张猫追逐玩具的图片，同时附上文本“可爱的钩织风格”，Gen 1会生成一个钩织猫追逐玩具的视频。

使用Gen 2 AI模型创建的视频也是无声的，但Valenzuela表示，公司正在研究音频生成，希望最终创建一个可以生成图像和声音的系统。

Gen 2的推出展示了初创公司在所谓的生成式AI领域前进的速度和猛烈程度，这些系统接受用户输入并生成新内容，如文本或图像。其中几个系统，比如Stable Diffusion，以及OpenAI公司的图像生成Dall-E和聊天机器人ChatGPT，最近已经变得公开可用并且广受欢迎。与此同时，它们的普及也引发了法律和伦理方面的担忧。

汉尼·法里德（Hany Farid）是一位数字取证专家，也是加州大学伯克利分校的教授，他看了一些由Gen 2生成的视频后称其“超酷”，但他补充说，使用这种技术生成的视频被滥用只是时间问题。

法里德说：“人们会试图利用这个做坏事。”

Runway正在使用人工智能和人工审核相结合的方法，防止用户生成包含色情、暴力内容或侵犯版权的Gen 2视频，尽管这些方法并非百分之百可靠。

与人工智能行业的其他领域一样，这项技术正在迅速发展。尽管Gen 2的图像质量目前有点模糊和抖动，使得很容易察觉到由Gen 2生成的视频与众不同，但瓦伦祖埃拉（Valenzuela）预计它会迅速改善。

他说：“现在还很早。这个模型会随着时间变得更好。”