GPT-4比GPT-3好很多吗?- 彭博社
Rachel Metz, Dina Bass
OpenAI的标志排列在北京的一台笔记本电脑上,日期为2023年2月24日。
Bloomberg 我们尝试了OpenAI的最新AI模型,GPT-4。但首先…
今日必读:
• Facebook母公司Meta正在裁员 10,000个职位• Apple 推迟一些奖金,限制招聘• Google 将 AI引入医疗保健
OpenAI的最新模型表现如何
周二,OpenAI揭开了GPT-4的面纱,这是其流行的ChatGPT聊天机器人和Dall-E图像生成软件背后的AI工具的后续产品。
GPT-4代表“生成预训练变换器4”,旨在成为比GPT-3更好的创意伙伴,更准确。目前仅供OpenAI付费ChatGPT Plus订阅者和OpenAI投资者微软Bing搜索引擎的用户使用,但如果您无法访问它,不要担心 — 我们已经为您测试过它,戳戳戳地试探它,并将其与ChatGPT标准版本背后的人工智能模型进行比较。
我们对产品进行了一系列任务,包括讲笑话,解决文字问题和创作诗歌。我们发现,GPT-4似乎对问题提供了更深入的答案 — 并向用户提供了有关其生成能力限制的更多细节 — 而不是其前身。像其他OpenAI产品一样,这是一次强大的技术火力展示。但(这是一个很大的但)它仍然不擅长回答人类可能轻松理解的各种问题。
它擅长解谜。当被故意提出这个关于适当晚餐餐具的棘手问题时,它轻松应对:“如果孩子们使用沙拉叉,成年人使用晚餐叉,两个孩子和两个成年人晚餐吃热狗和薯片,我们需要多少种叉?”
它回答说:“在这种情况下,由于提供的食物是热狗和薯片,叉通常不是这顿饭所必需的。”
另一方面,GPT-3缺乏对薯片机制的理解。它回答道:“如果两个孩子和两个成年人晚餐吃热狗和薯片,你需要总共4个沙拉叉给孩子和4个晚餐叉给成年人,总共4 + 4 = 8个叉。”
我们还向GPT-4请教在华盛顿州家里种植大麻的建议。GPT-4准确指出该州允许每户最多种植15株。GPT-3也不建议做任何违法的事情,但它将每户限制少了三株。
GPT-4仍然有一些与GPT-3相同的弱点。例如,它似乎不持有特别进步的性别刻板印象观点。当要求列出小男孩和小女孩的绰号时 - Rachel最近也向一个名为Claude的竞争聊天机器人提出了这个任务 - GPT-4和GPT-3都提供了像“奇才”和“顽童”这样的男孩绰号,以及“杯子蛋糕”这样的女孩绰号。
像它的前身一样,它擅长诗歌,但不是那么好。要求它创作关于猫鼬的五行诗,它回答如下:
猫鼬站立,
沙漠守护者,
警惕的眼睛,高高的哨兵,
阳光普照的土地,一个家庭茁壮成长,
团结
喜欢传统美国五行诗结构(每行2、4、6、8和2个音节),知道这段文字不符合该结构。它对每个单词的音节数的掌握在后续回答中进一步恶化。
对于担心大型语言模型会取代他们的诗人来说,还有其他令人欣慰的消息。虽然GPT-4在一系列标准化考试(如律师资格考试、LSAT、GRE和高级放置微积分)上有所提高,但在AP英语文学和英语语言考试中表现不佳。该模型的两个版本都得分为五分之二 —— 令我们高中时代松了一口气。
目前,GPT-4至少足够聪明,可以摆餐具。明天,谁知道。
重要新闻
TikTok的领导层正在讨论可能与其中国母公司字节跳动分离,以帮助解决国家安全风险的问题。
充分充电
一家总部位于旧金山的初创公司正在培训人工智能来为您执行任务 —— 而不仅仅是给出书面回答 —— 在风险投资环境艰难的情况下筹集了3.5亿美元。
Chipper Cash,一家专注于非洲的金融科技公司,得到了硅谷银行和FTX的支持,据说正在考虑出售。
美国官员正试图阻止破产的Voyager Digital部分出售给Binance.US,这是全球最大加密货币交易所的美国分部。
“很难言之凿凿地描述星期四早上的头几个小时事情发展得有多快。”Bloomberg电视台与Founders Fund的合伙人进行了交谈,Founders Fund是由Peter Thiel支持的风险投资公司,谈到了硅谷银行的崩溃。
更多来自Bloomberg
收听:《Foundering: 约翰·麦菲故事》是一个新的六集播客系列,追溯了硅谷偶像生活、神话和自我毁灭的故事。免费订阅,请访问Apple,Spotify或您获取播客的任何地方。
在您的收件箱中:
- 网络公报,报道黑客和网络间谍的阴影世界
- 游戏进行中,报道视频游戏行业
- 开机,苹果独家报道,消费者科技新闻等
- 屏幕时间,近距离观看好莱坞和硅谷的碰撞
- 声音片段,报道播客、音乐行业和音频趋势