泰勒·斯威夫特,特拉维斯·凯尔斯的传闻在谷歌反垄断审判中讨论 - 彭博社
Leah Nylen
Taylor Swift在周日的堪萨斯城酋长队对芝加哥熊队比赛中。
摄影师:David Eulitt/Getty ImagesChatGPT不知道Taylor Swift是否正在约会堪萨斯城酋长队的紧密端特拉维斯·凯尔斯。
这个例子是微软公司执行官米哈伊尔·帕拉欣本周在美国司法部具有里程碑意义的反垄断审判中使用的,用来说明谷歌母公司Alphabet Inc.市场主导地位的搜索引擎无法轻易被新技术(如聊天机器人)取代或挑战。
OpenAI的聊天机器人允许用户输入查询并获得书面回复,但用于训练人工智能系统的数据基于从网络中收集的旧信息。没有新鲜数据——比如用户搜索流行歌手最新男友这类新主题提供的数据——它不太可能提供准确答案。
据称Swift的新男友凯尔斯,这位两次获得超级碗冠军的美国橄榄球运动员,在ChatGPT中不会出现,但在微软的必应搜索引擎中会出现,帕拉欣告诉监督华盛顿特区案件的美国地方法官阿米特·梅赫塔。
聊天机器人“用于推理和提供答案,但基础信息来自搜索,”帕拉欣说,他在2019年加入微软之前曾担任俄罗斯搜索引擎Yandex NV的首席技术官。
美国司法部对谷歌的反垄断诉讼涉及的行为可以追溯到2002年。但反垄断执法者表示,这个案件可能会影响未来的互联网,因为科技公司开始将人工智能融入产品中。
月球规模
审判中的一个关键分歧是关于搜索引擎的“规模”,这个术语指的是它从网站和用户那里收集的数据量。搜索引擎爬行网络以创建一个索引 —— 一个地图,使得搜索引擎能够更快地根据查询提供相关链接。司法部表示,谷歌的索引是世界上最大的,如果打印出来,这个堆叠物会达到月球来回12次的长度。
因为让爬虫获取数据对网站来说是需要花钱的,他们通常会限制允许哪些搜索引擎收集数据。例如,流行的问答网站 Quora Inc. 只允许谷歌的爬虫,不允许必应或其他搜索引擎的爬虫,Parakhin说。
“如果你不是一个大型搜索引擎,网站就不会让你对它们进行索引,”他说。“如果网站不允许你,你再怎么索引数据也没用。”
在审判的早期证词中,谷歌 首席经济学家 Hal Varian 和工程师 Eric Lehman 作证称,搜索引擎收集的用户数据如今已不再那么重要,而基于这些数据的大型语言模型等新技术并不需要它。
“我以为用户数据对帮助机器学习语言至关重要。结果表明,这些非常庞大的机器学习系统可以简单地从文本中学习,”Lehman说道。Lehman在2022年离开谷歌之前曾参与谷歌搜索工作17年。“用户数据仍然会发挥作用,但我认为它的作用会大大减弱。”
然而,微软的Parakhin表示,即使是新技术也无法完全取代数据劣势。Bing的数据对不仅对微软重要。其他搜索引擎,包括DuckDuckGo,其首席执行官 Gabriel Weinberg上周在庭审中作证,以及雅虎都依赖Bing的数据来构建自己的结果。
“你可以在一定程度上减轻规模效应。我们还没有能够扭转这种影响,”Parakhin说道。“我们看到一些公司在尝试。但我们还没有看到任何人取得成功。”
在Parakhin作证期间,法官问他,一家公司是否可以仅凭ChatGPT这样的大型语言模型构建一个“高质量的搜索引擎”。
“构建一个在某个查询领域表现良好的搜索引擎是非常容易的,”Parakhin说,“就像构建一个可以在空旷停车场内行驶的自动驾驶汽车一样容易。”
“即使使用最好的算法,即使使用大型语言模型,构建一个具有竞争力的完全功能的搜索引擎也是极其困难的,”他说。