GPT-4比GPT-3好很多吗？- 彭博社

Rachel Metz, Dina Bass

2023-03-15

OpenAI的标志排列在北京的一台笔记本电脑上，日期为2023年2月24日。

Bloomberg 我们尝试了OpenAI的最新AI模型，GPT-4。但首先…

今日必读：

• Facebook母公司Meta正在裁员 10,000个职位• Apple 推迟一些奖金，限制招聘• Google 将 AI引入医疗保健

OpenAI的最新模型表现如何

周二，OpenAI揭开了GPT-4的面纱，这是其流行的ChatGPT聊天机器人和Dall-E图像生成软件背后的AI工具的后续产品。

GPT-4代表“生成预训练变换器4”，旨在成为比GPT-3更好的创意伙伴，更准确。目前仅供OpenAI付费ChatGPT Plus订阅者和OpenAI投资者微软Bing搜索引擎的用户使用，但如果您无法访问它，不要担心 — 我们已经为您测试过它，戳戳戳地试探它，并将其与ChatGPT标准版本背后的人工智能模型进行比较。

我们对产品进行了一系列任务，包括讲笑话，解决文字问题和创作诗歌。我们发现，GPT-4似乎对问题提供了更深入的答案 — 并向用户提供了有关其生成能力限制的更多细节 — 而不是其前身。像其他OpenAI产品一样，这是一次强大的技术火力展示。但（这是一个很大的但）它仍然不擅长回答人类可能轻松理解的各种问题。

它擅长解谜。当被故意提出这个关于适当晚餐餐具的棘手问题时，它轻松应对：“如果孩子们使用沙拉叉，成年人使用晚餐叉，两个孩子和两个成年人晚餐吃热狗和薯片，我们需要多少种叉？”

它回答说：“在这种情况下，由于提供的食物是热狗和薯片，叉通常不是这顿饭所必需的。”

另一方面，GPT-3缺乏对薯片机制的理解。它回答道：“如果两个孩子和两个成年人晚餐吃热狗和薯片，你需要总共4个沙拉叉给孩子和4个晚餐叉给成年人，总共4 + 4 = 8个叉。”

我们还向GPT-4请教在华盛顿州家里种植大麻的建议。GPT-4准确指出该州允许每户最多种植15株。GPT-3也不建议做任何违法的事情，但它将每户限制少了三株。

GPT-4仍然有一些与GPT-3相同的弱点。例如，它似乎不持有特别进步的性别刻板印象观点。当要求列出小男孩和小女孩的绰号时 - Rachel最近也向一个名为Claude的竞争聊天机器人提出了这个任务 - GPT-4和GPT-3都提供了像“奇才”和“顽童”这样的男孩绰号，以及“杯子蛋糕”这样的女孩绰号。

像它的前身一样，它擅长诗歌，但不是那么好。要求它创作关于猫鼬的五行诗，它回答如下：

猫鼬站立，

沙漠守护者，

警惕的眼睛，高高的哨兵，

阳光普照的土地，一个家庭茁壮成长，

团结

喜欢传统美国五行诗结构（每行2、4、6、8和2个音节），知道这段文字不符合该结构。它对每个单词的音节数的掌握在后续回答中进一步恶化。

对于担心大型语言模型会取代他们的诗人来说，还有其他令人欣慰的消息。虽然GPT-4在一系列标准化考试（如律师资格考试、LSAT、GRE和高级放置微积分）上有所提高，但在AP英语文学和英语语言考试中表现不佳。该模型的两个版本都得分为五分之二 —— 令我们高中时代松了一口气。

目前，GPT-4至少足够聪明，可以摆餐具。明天，谁知道。

重要新闻

TikTok的领导层正在讨论可能与其中国母公司字节跳动分离，以帮助解决国家安全风险的问题。

充分充电

一家总部位于旧金山的初创公司正在培训人工智能来为您执行任务 —— 而不仅仅是给出书面回答 —— 在风险投资环境艰难的情况下筹集了3.5亿美元。

Chipper Cash，一家专注于非洲的金融科技公司，得到了硅谷银行和FTX的支持，据说正在考虑出售。

美国官员正试图阻止破产的Voyager Digital部分出售给Binance.US，这是全球最大加密货币交易所的美国分部。

“很难言之凿凿地描述星期四早上的头几个小时事情发展得有多快。”Bloomberg电视台与Founders Fund的合伙人进行了交谈，Founders Fund是由Peter Thiel支持的风险投资公司，谈到了硅谷银行的崩溃。

OpenAI的最新模型表现如何

重要新闻

充分充电

更多来自Bloomberg