OpenAI在利用YouTube？大科技公司被困在自己制造的玻璃房中 - 彭博社

Parmy Olson

2024-04-09

摄影师：SEAN GLADWELL/Moment RF几周前，OpenAI的首席技术官被问及公司是否使用YouTube视频来训练其人工智能系统。起初，她一脸茫然。然后皱起了眉头。最后，Mira Murati给出了一个回答，避开了她和其他科技公司正在运营的混乱和隐秘世界：“实际上，我不太确定。”

根据《纽约时报》的一份报告，事实上，OpenAI确实在“超过一百万小时的YouTube视频”上训练了其人工智能，使用了一种名为Whisper的语音识别工具。所有转录中的对话文本都被用来训练ChatGPT的旗舰大型语言模型GPT-4。

Bloomberg观点食品价格上涨。还有什么新鲜事吗？英国的理事会债务危机正在扩散Archegos-ViacomCBS诉讼是对愚蠢金钱的提醒津巴布韦的ZiG货币更像是闪闪发光而不是黄金大型科技公司竞相构建更具能力的人工智能模型已经达到一个程度，他们在公共网络上寻找数据的地方越来越少，从YouTube视频的转录中提取文本表明OpenAI一直在寻找数据，即使有可能违反某些规定。YouTube首席执行官Neal Mohan上周告诉彭博新闻，如果OpenAI使用YouTube视频来改进其人工智能，那将是对YouTube使用条款的“明显违反”。OpenAI没有回应评论请求。

然而，很难看到OpenAI和Google之间的紧张局势升级。就其中一方而言，Google几乎无法抱怨数据违规，因为其整个业务是建立在收集数十亿消费者的私人数据基础上的，而且往往是以惊人和令人惊讶的规模进行收集。Google还从一些YouTube视频中提取转录数据来训练其AI模型，Mohan告诉彭博社。

数据收集已经根深蒂固地融入了谷歌和Meta Platforms Inc.等公司的商业模式中，使用人们的创作作品而不经同意或补偿的道德问题似乎已经成为一个不被讨论的潜在问题。最近，Meta的一名律师指出了擅自获取艺术家知识产权的道德顾虑，但据《纽约时报》报道，他们遭到了沉默的回应，该报道还称，Meta高管曾考虑收购像Simon & Schuster这样的图书出版商以获取更多高质量数据，但最终决定获得许可证需要太长时间。

最后，一名Meta高管指出，“唯一阻碍我们变得像ChatGPT一样优秀的就是数据量，” 《纽约时报》报道。由于OpenAI似乎正在使用受版权保护的材料，Meta可以简单地遵循这个“市场先例”，他补充道。

当然，Meta本身在OpenAI之前就已经建立了先例，通过从消费者那里收集大量个人数据并与第三方的拜占庭网络共享。这就是为什么马克·扎克伯格本人最近吹捧他手头的Facebook和Instagram数据堆积如山，作为在人工智能竞赛中的优势。他在二月份告诉投资者：“我们播放列表的下一个关键部分是从独特数据中学习。”“在Facebook和Instagram上，有数千亿公开分享的图片和数百亿公开视频。”

Meta和谷歌没有回应评论请求。

谷歌是否尝试以与OpenAI从YouTube中抓取数据相同的方式获取Meta的一些数据？Meta是否尝试从谷歌的用户数据中获取数据以补充其AI训练堆积？我们可能永远不会知道，但可以想象，目前在人工智能业务中发生的抓取数据的方式可能不仅限于OpenAI和YouTube。毕竟，挖掘数据正是这些公司成为数万亿美元企业的方式。

这也是为什么很难看到谷歌或Meta对其用户数据成为利用目标而大惊小怪。这不仅是在玻璃房子里扔石头的最终例子，也会提醒人们他们的个人生活——现在甚至是他们的创意作品——正被转化为别人的产品。

更多来自彭博观点：

嘿，谷歌，将YouTube作为独立公司释放：戴夫·李
人工智能骗局投诉只是冰山一角：帕米·奥尔森
人工智能亿万富翁俱乐部看起来像是新的镀金时代：利奥内尔·洛朗

想要更多彭博观点吗？OPIN <GO>。或者您可以订阅我们的每日新闻简报。