泰勒·斯威夫特，特拉维斯·凯尔斯的传闻在谷歌反垄断审判中讨论 - 彭博社

Leah Nylen

2023-09-28

Taylor Swift在周日的堪萨斯城酋长队对芝加哥熊队比赛中。

摄影师：David Eulitt/Getty ImagesChatGPT不知道Taylor Swift是否正在约会堪萨斯城酋长队的紧密端特拉维斯·凯尔斯。

这个例子是微软公司执行官米哈伊尔·帕拉欣本周在美国司法部具有里程碑意义的反垄断审判中使用的，用来说明谷歌母公司Alphabet Inc.市场主导地位的搜索引擎无法轻易被新技术（如聊天机器人）取代或挑战。

OpenAI的聊天机器人允许用户输入查询并获得书面回复，但用于训练人工智能系统的数据基于从网络中收集的旧信息。没有新鲜数据——比如用户搜索流行歌手最新男友这类新主题提供的数据——它不太可能提供准确答案。

据称Swift的新男友凯尔斯，这位两次获得超级碗冠军的美国橄榄球运动员，在ChatGPT中不会出现，但在微软的必应搜索引擎中会出现，帕拉欣告诉监督华盛顿特区案件的美国地方法官阿米特·梅赫塔。

聊天机器人“用于推理和提供答案，但基础信息来自搜索，”帕拉欣说，他在2019年加入微软之前曾担任俄罗斯搜索引擎Yandex NV的首席技术官。

美国司法部对谷歌的反垄断诉讼涉及的行为可以追溯到2002年。但反垄断执法者表示，这个案件可能会影响未来的互联网，因为科技公司开始将人工智能融入产品中。

审判中的一个关键分歧是关于搜索引擎的“规模”，这个术语指的是它从网站和用户那里收集的数据量。搜索引擎爬行网络以创建一个索引 —— 一个地图，使得搜索引擎能够更快地根据查询提供相关链接。司法部表示，谷歌的索引是世界上最大的，如果打印出来，这个堆叠物会达到月球来回12次的长度。

因为让爬虫获取数据对网站来说是需要花钱的，他们通常会限制允许哪些搜索引擎收集数据。例如，流行的问答网站 Quora Inc. 只允许谷歌的爬虫，不允许必应或其他搜索引擎的爬虫，Parakhin说。

“如果你不是一个大型搜索引擎，网站就不会让你对它们进行索引，”他说。“如果网站不允许你，你再怎么索引数据也没用。”

在审判的早期证词中，谷歌首席经济学家 Hal Varian 和工程师 Eric Lehman 作证称，搜索引擎收集的用户数据如今已不再那么重要，而基于这些数据的大型语言模型等新技术并不需要它。

“我以为用户数据对帮助机器学习语言至关重要。结果表明，这些非常庞大的机器学习系统可以简单地从文本中学习，”Lehman说道。Lehman在2022年离开谷歌之前曾参与谷歌搜索工作17年。“用户数据仍然会发挥作用，但我认为它的作用会大大减弱。”

然而，微软的Parakhin表示，即使是新技术也无法完全取代数据劣势。Bing的数据对不仅对微软重要。其他搜索引擎，包括DuckDuckGo，其首席执行官 Gabriel Weinberg上周在庭审中作证，以及雅虎都依赖Bing的数据来构建自己的结果。

“你可以在一定程度上减轻规模效应。我们还没有能够扭转这种影响，”Parakhin说道。“我们看到一些公司在尝试。但我们还没有看到任何人取得成功。”

在Parakhin作证期间，法官问他，一家公司是否可以仅凭ChatGPT这样的大型语言模型构建一个“高质量的搜索引擎”。

“构建一个在某个查询领域表现良好的搜索引擎是非常容易的，”Parakhin说，“就像构建一个可以在空旷停车场内行驶的自动驾驶汽车一样容易。”

“即使使用最好的算法，即使使用大型语言模型，构建一个具有竞争力的完全功能的搜索引擎也是极其困难的，”他说。