独家：OpenAI正在进行代号为“草莓”的新推理技术研究 | 路透社

Anna Tong,Katie Paul

2024-07-13

OpenAI logo is seen in this illustration taken May 20, 2024. 路透社/Dado Ruvic/插图/档案照片 7月12日 - ChatGPT 制造商 OpenAI 正在进行一项名为“草莓”（Strawberry）的项目，该项目采用了一种新颖的方法来处理其人工智能模型，据一位知情人士和路透社审阅的内部文件透露。

这个项目的细节此前尚未报道，这个项目是由微软支持的初创公司 OpenAI 竞相展示其所提供的模型能够提供先进的推理能力。

OpenAI 内部的团队正在进行草莓项目，根据路透社在5月份看到的一份最近的内部 OpenAI 文件的副本。路透社无法确定文件的确切日期，该文件详细描述了 OpenAI 打算如何使用草莓进行研究。消息人士将该计划描述给路透社时表示这还在进行中。这家新闻机构无法确定草莓离公开使用有多近。

即使在 OpenAI 内部，草莓的工作原理也是一个严格保密的秘密，该人士表示。

文件描述了一个项目，该项目使用草莓模型的目标是使公司的人工智能不仅能够生成对查询的答案，而且能够提前规划足够的内容来自主可靠地浏览互联网，以执行 OpenAI 称之为“深度研究”的任务，根据消息来源。

这是迄今为止 AI 模型无法做到的事情，根据对超过一打 AI 研究人员的采访。

谈到草莓和这个故事中报道的细节，OpenAI公司发言人在一份声明中表示：“我们希望我们的AI模型能够更像我们一样看待和理解世界。对新的AI能力进行持续研究是行业中的常见做法，大家普遍认为这些系统的推理能力会随着时间的推移而提高。”

发言人没有直接回答关于草莓的问题。

草莓项目以前被称为Q*，路透社去年报道，在公司内部已被视为一项突破。两位消息人士描述，今年早些时候他们看到OpenAI员工告诉他们的Q*演示，能够回答今天商业可用模型无法解答的棘手科学和数学问题。

据彭博社报道，周二在一次内部全员会议上，OpenAI展示了一项据称具有新的类人推理能力的研究项目，根据彭博社的报道。OpenAI发言人证实了会议的召开，但拒绝透露内容细节。路透社无法确定展示的项目是否为草莓。熟悉此事的人表示，OpenAI希望这一创新将极大地提高其AI模型的推理能力，补充说草莓涉及一种专门的方式，在AI模型在大型数据集上进行预训练后进行处理。

路透社采访的研究人员表示，推理对于AI实现人类或超人类水平的智能至关重要。

虽然大型语言模型已经能够比任何人更快地总结密集文本并撰写优雅的散文，但这项技术在识别逻辑谬误和玩井字棋等对人类来说直观的常识问题上经常表现不佳。当模型遇到这类问题时，通常会“产生”虚假信息。

路透社采访的人工智能研究人员普遍认为，在人工智能的背景下，推理涉及形成一个模型，使人工智能能够提前规划，反映物理世界的运作方式，并可靠地解决具有挑战性的多步问题。

改进人工智能模型中的推理被视为解锁模型能够从进行重大科学发现到规划和构建新软件应用等各种任务的关键。

OpenAI首席执行官Sam Altman 今年早些时候表示，在人工智能领域，“最重要的进展领域将围绕推理能力展开。”谷歌、Meta和微软等其他公司也在尝试不同的技术来改进人工智能模型中的推理能力，大多数从事人工智能研究的学术实验室也在进行类似的实验。然而，研究人员在大型语言模型（LLMs）是否能够将想法和长期规划纳入到他们进行预测的方式中存在分歧。例如，现代人工智能的先驱之一、就职于Meta的Yann LeCun经常表示，LLMs无法进行类似人类推理的工作。

人工智能挑战

知情人士表示，草莓是OpenAI克服这些挑战的关键组成部分。路透社看到的文件描述了草莓的目标，但没有说明如何实现。

在最近几个月里，据四位听过公司宣传的人透露，该公司私下向开发人员和其他外部方面发出信号，表明公司即将发布具有更先进推理能力的技术。由于他们未经授权讨论私人事务，他们拒绝透露身份。

据一位消息人士称，草莓包括一种专门的方式，即所谓的“后训练”OpenAI的生成式AI模型，或者调整基础模型以在它们已经在大量通用数据上“训练”之后以特定方式提高性能。

开发模型的后训练阶段涉及诸如“微调”之类的方法，这是当今几乎所有语言模型都在使用的过程，有许多不同的方式，比如让人类根据模型的响应给出反馈，并向其提供好坏答案的示例。

据了解此事的一位消息人士称，草莓与2022年斯坦福开发的一种方法“自学习推理器”或“STaR”有相似之处。 STaR使AI模型能够通过迭代地创建自己的训练数据来“自我启动”到更高的智能水平，并且理论上可以用于使语言模型超越人类水平的智能，斯坦福教授诺亚·古德曼告诉路透社。

“我认为这既令人兴奋又令人恐惧……如果事情继续朝着这个方向发展，我们作为人类就有一些严肃的事情需要考虑，”古德曼说。古德曼与OpenAI无关，也不熟悉草莓。

OpenAI 正在将 Strawberry 定位为具备执行长期任务（LHT）能力的模型，文件中提到，这指的是需要模型提前规划并在较长时间内执行一系列动作的复杂任务，第一个消息来源解释说。

为了实现这一目标，OpenAI 正在创建、训练和评估模型，这些模型基于公司所称的“深度研究”数据集，根据 OpenAI 的内部文件。路透社无法确定该数据集中包含什么内容，以及“较长时间”意味着多长时间。

OpenAI 特别希望其模型利用这些能力通过“CUA”（计算机使用代理）的协助自主浏览网络进行研究，并根据其发现采取行动，根据文件和消息来源之一。OpenAI 还计划测试其模型在执行软件和机器学习工程师的工作方面的能力。

通过订阅《在竞选路上》新闻简报，获取关于美国选举的每周新闻和分析，以及它对世界的影响。在这里注册。