我用人工智能克隆了自己她愚弄了我的银行和我的家人- 华尔街日报

Joanna Stern

2023-04-28

AI Joanna的好消息：她永远不会失去自己的声音，她有出色的姿势，即使是一辆以每小时120英里的速度穿过龙卷风的敞篷车也不会弄乱她的头发。

坏消息是：她可以欺骗我的家人并欺骗我的银行。

也许你已经玩过像OpenAI的ChatGPT和Google的巴德这样的聊天机器人，或者像Dall-E这样的图像生成器。如果你认为它们模糊了人工智能和人类智能之间的界限，那么你还没有看到——或者听到——更多。

在过去的几个月里，我一直在测试Synthesia，这是一个从录制的视频和音频中创建人工智能化身（也就是deepfakes）的工具。输入任何内容，你的视频化身都会模仿回来。

由于我做了很多语音和视频工作，我认为这可能会让我更有效率，减轻一些单调乏味。毕竟，这就是人工智能的承诺。所以我去了一个工作室，录制了大约30分钟的视频和将近两个小时的音频，Synthesia将用这些来训练我的克隆。几周后，AI Joanna准备好了。

然后我尝试了终极休息日，费利斯·布勒风格。AI我——配合ChatGPT生成的文本——能否取代实际的我出现在视频、会议和电话中？这是……令人大开眼界，或者我敢说，AI开启。（让我们把最糟糕的笑话归咎于AI Joanna吧。）

最终，AI Joanna可能会撰写专栏并主持我的视频。目前，她最擅长的是说明生成式AI语音和视频工具的利弊。

我的视频化身看起来像一个化身。

视频制作需要大量工作。发型、化妆、服装、摄像机、灯光、麦克风。Synthesia承诺消除这些工作，这就是为什么公司已经在使用它。你知道那些无聊的合规培训视频吗？为什么要付钱请演员出演真人版，当AI可以全包办？Synthesia收费每年$1,000来创建和维护一个定制化身，另外还有额外的月度订阅费。它还提供库存化身以更低的月费。

我让ChatGPT生成一个关于iOS提示的TikTok脚本，用Joanna Stern的声音写成。我把它粘贴到Synthesia中，点击“生成”，突然间“我”在说话。就像看着镜子里的自己，尽管这个镜子会去掉手势和面部表情。对于简短的句子，化身可以相当令人信服。文本越长，她的机器本质就越明显。在我的视频中亲自看看。

在TikTok上，人们的注意力就像金鱼一样短，这些计算机般的特征就不那么明显了。尽管如此，一些人很快就注意到了。声明一下，我宁愿吃活鳗鱼也不愿说出“TikTok家人”这个词，但AI版的我却毫不在意。

在工作视频通话中，机器人的特征变得非常明显。我下载了她说常见会议用语（“大家好！”“抱歉，我静音了。”）的片段，然后使用软件将它们传输到Google Meet。显然，AI Joanna完美的姿势和缺乏机智是明显的线索。

一切都会变得更好。Synthesia在测试版中有一些头像，可以上下点头，挑眉等。

我的AI声音听起来很像我。

当我妹妹的鱼死了，我可以打电话表示慰问吗？可以。在与Snap首席执行官埃文·斯皮格尔的电话采访中，我可以自己提出每个问题吗？当然。但在这两种情况下，我的AI声音是一个令人信服的替身。起初。

我没有在那些电话中使用Synthesia的语音克隆。相反，我使用了由ElevenLabs生成的语音，这是一家人工智能语音软件开发公司。我的制片人肯尼·瓦苏斯从以前的视频中收集了大约90分钟的我的声音，然后我们将文件上传到该工具中——无需参观录音棚。不到两分钟，它就克隆了我的声音。在ElevenLabs的基于网络的工具中，输入任何文本，点击生成，几秒钟内“我的”声音就会朗读出来。使用ElevenLabs创建语音克隆的起步价为每月5美元。

与Synthesia Joanna相比，ElevenLabs的我听起来更像人类，语调和流畅性更好。在这里听测试音频：

我每周都会给我妹妹打几次电话，她说这个机器人听起来就像我，但她注意到机器人没有停下来呼吸。当我给我爸爸打电话并要求他的社会安全号码时，他之所以知道情况有点不对劲，是因为听起来像是我的录音。

滥用的潜力是真实存在的。

ElevenLabs的声音如此出色，以至于它愚弄了我的Chase信用卡的声音生物识别系统。

我事先让AI Joanna了解了我知道Chase会问的几件事情，然后拨打了客服电话。在生物特征步骤中，当自动系统要求我的姓名和地址时，AI Joanna作出了回应。听到我的机器人的声音，系统将其识别为我，并立即转接到了一个代表。当我们的视频实习生打电话并做出他最像Joanna的模仿时，自动系统要求进一步验证。

一位Chase女发言人表示，该银行使用语音生物特征技术以及其他工具来验证呼叫者是否为其声称的人。她补充说，该功能旨在让客户快速而安全地确认自己的身份，但要完成交易和其他金融请求，客户必须提供额外信息。

最令人担忧的是：ElevenLabs制作了一个非常逼真的克隆体而几乎没有任何阻力。我所要做的就是点击一个按钮，表示我有“必要的权利或同意”上传音频文件并创建克隆体，并且我不会将其用于欺诈目的。

这意味着任何人都可以在互联网上获取我、你、乔·拜登或汤姆·布雷迪数小时的声音并保存和使用。联邦贸易委员会已经发出警告关于与AI语音相关的诈骗。

Synthesia要求音频和视频包括口头同意，我在与该公司拍摄和录制时已经这样做了。

ElevenLabs只允许在付费账户中进行克隆，因此任何违反公司政策的克隆声音的使用都可以追溯到账户持有人，该公司联合创始人Mati Staniszewski告诉我。该公司正在研发一种认证工具，以便人们可以上传任何音频来检查是否是使用ElevenLabs技术创建的。

两个系统都允许我用我的声音生成一些可怕的东西，包括死亡威胁。

在Synthesia的网络工具中，您可以输入您希望您的头像说的话。照片：乔安娜·斯特恩/华尔街日报，SynthesiaSynthesia的发言人表示，我的账户被指定供新闻机构使用，这意味着它可以说出可能被过滤的单词和短语。该公司表示，其审核员后来标记并删除了我有问题的短语。当我的账户更改为标准类型后，我就无法再生成相同的短语了。

Staniszewski先生表示，ElevenLabs可以识别使用其软件制作的所有内容。如果内容违反了公司的服务条款，他补充说，ElevenLabs可以禁止其来源账户，并在违法情况下协助当局。

这些东西很难发现。

当我问加州大学伯克利分校的数字取证专家Hany Farid如何发现合成音频和视频时，他说了两个词：祝你好运。

“我不仅可以生成这些东西，还可以用它轰炸互联网，”他说，并补充说你不能让每个人都成为AI侦探。

当然，我的视频克隆显然不是我，但它只会变得更好。如果我的父母和姐妹真的听不出我的声音差异，我还能指望其他人吗？

我从听到由Adobe领导的内容真实性倡议这件事中得到了一点希望。超过1,000家媒体和科技公司、学者等旨在为媒体创建一个嵌入式“营养标签”。互联网上的照片、视频和音频可能有一天会附带可验证的信息。Synthesia是该倡议的成员。

工作梦想：一个可以发送到视频通话的人工智能。可惜，每个人都知道她是假的。照片：Joanna Stern/The Wall Street Journal### 我对自己是人类感到自豪。

与从不微笑的AI Joanna不同，真实的Joanna在此之后有了值得微笑的事情。ChatGPT生成的文本缺乏我的个性和专业知识。我的视频克隆缺乏使我成为我自己的东西。虽然我的视频制作人喜欢在早期编辑中使用我的AI声音来玩弄时间，但我的真实声音更有活力、情感和韵律。

AI会变得更擅长所有这些吗？绝对会。但我也计划利用这些工具为我提供更多时间成为一个真正的人类。与此同时，我至少在会议中坐得更加挺拔了。

—在这里注册Joanna Stern的科技事务，一个新的每周简报。现在一切都是科技事务。专栏作家Joanna Stern是您的向导，为您提供关于我们始终保持连接的世界的分析并回答您的问题。

写信给Joanna Stern，邮箱地址为[email protected]

更正与补充在本文早期版本中，一张图片的标题拼错了Synthesia网络工具的名字为Sythesia。（已于4月28日更正）

刊登于2023年4月29日的印刷版上，标题为“一个AI克隆骗过了我的银行和家人”。