AI初创公司ElevenLabs禁止了一些被指责制作拜登音频深度伪造的账户-Bloomberg
Margi Murphy, Rachel Metz, Mark Bergen
ElevenLabs是一家初创公司,利用人工智能软件在两打以上的语言中复制声音。
摄影师:Ting Shen/Bloomberg根据知情人士的说法,制作了美国总统乔·拜登敦促人们不要在本周的新罕布什尔州初选中投票的音频深度伪造的创作者已被ElevenLabs停职。声音欺诈检测公司Pindrop Security Inc.分析后发现,ElevenLabs的技术被用来制作深度伪造音频。Pindrop Security Inc.ElevenLabs本周得知Pindrop的发现并正在进行调查,该知情人士表示。该用户的帐户一旦被追踪到制作深度伪造,就会被暂停,该知情人士说,由于信息不是公开的,请求不透露身份。ElevenLabs是一家利用人工智能软件在两打以上的语言中复制声音的初创公司,拒绝置评。本周早些时候,ElevenLabs宣布从包括安德烈森·霍洛维茨和红杉资本在内的投资者那里融资8,000万美元。首席执行官Mati Staniszewski表示,最新的融资使他的初创公司估值达到11亿美元。
上周接受采访时,Staniszewski表示,未经许可冒充声音的音频将被删除。在其网站上,该公司表示,如果剪辑“以一种对听众明确表明他们所听到的是一种模仿的幽默或嘲讽方式”表达幽默或嘲讽,允许对公众人物(如政治家)进行声音克隆。拜登的伪造电话呼吁人们在11月的美国选举中保存选票,引起了虚假信息专家和选举官员的警惕。这不仅说明了创建音频深度伪造的相对容易,还暗示了恶意行为者利用这项技术让选民远离投票站的潜力。
新罕布什尔州总检察长的一位发言人当时表示,这些信息似乎是“非法企图扰乱新罕布什尔州总统初选,并压制新罕布什尔州选民”的行为。该机构已经展开了调查。
想要在ElevenLabs上克隆声音的用户必须使用信用卡支付该功能。目前尚不清楚ElevenLabs是否将这些信息传递给了新罕布什尔州当局。
彭博新闻于1月22日从总检察长办公室收到了录音副本,并试图确定使用了哪种技术来创建它。这些努力包括将其通过ElevenLabs自己的“语音分类器”工具,该工具应该能够显示音频是否是使用人工智能和ElevenLabs技术创建的。根据该工具显示,录音有2%的可能性是合成的或使用了ElevenLabs创建的。
其他深度伪造工具证实这是一个深度伪造,但无法检测到音频背后的技术。Pindrop的研究人员通过去除背景噪音、静音以及将音频分成每250毫秒155个片段进行深度分析,Pindrop的创始人Vijay Balasubramaniyan在接受采访时表示。然后,该公司将音频与其收集的来自100多个常用于制作深度伪造的文本转语音系统的数据库中的其他样本进行比较。
研究人员得出结论,几乎可以肯定是使用了ElevenLabs的技术创建的,Balasubramaniyan说。
在Discord上的ElevenLabs支持频道上,一位版主在公共论坛上表示,该公司的语音分类器除非分析原始文件,否则无法检测到自己的音频,这一点也得到了Balasubramaniyan的证实。他解释说,对于拜登的电话,立即分析的唯一文件是电话录音,因为元数据的部分被删除,检测波长更加困难。Siwei Lyu,一位专门研究深度伪造和数字媒体取证的布法罗大学教授,也分析了深度伪造的副本,并将其通过ElevenLabs的分类器,得出结论称很可能是使用该公司的软件制作的,他告诉彭博新闻。Lyu表示,ElevenLabs的分类器是他在尝试确定音频深度伪造来源时首先检查的软件之一,因为该软件被如此广泛地使用。
“随着大选的临近,我们将看到更多这样的情况,”他说。“这绝对是每个人都应该意识到的问题。”
Pindrop与彭博新闻分享了研究人员经过擦拭和精炼的音频版本。使用那个录音,ElevenLabs的语音分类器得出结论,它与自己的技术有84%的匹配度。
声音克隆技术实现了“规模和个性化的疯狂组合”,可以欺骗人们以为他们听到的是当地政客或高级选定官员,Balasubramaniyan描述它为“令人担忧的事情。”
科技投资者正向开发合成声音、视频和图像的人工智能初创公司投入资金,希望这将改变媒体和游戏行业。
Staniszewski在上周的采访中表示,他的40人公司中有五人致力于处理内容审核。“我们看到的用例中,百分之九十九都是积极的,”CEO说道。该公司还分享,其平台在过去十二个月内生成了超过100年的音频。