微软为OpenAI的ChatGPT构建了一台昂贵的超级计算机 - 彭博社

Dina Bass

2023-03-13

训练大型语言模型时，计算工作量被分配到成千上万个GPU中，在一个高吞吐量、低延迟的网络中连接在一起的集群中。来源：微软

当微软公司在2019年向OpenAI投资10亿美元时，同意为这家人工智能研究初创公司建造一台庞大、尖端的超级计算机。唯一的问题是：微软没有类似OpenAI所需的东西，也不确定能否在其Azure云服务中构建如此庞大的系统而不会出现故障。

OpenAI正试图训练一组越来越庞大的人工智能程序，这些程序正在摄取更多的数据并学习越来越多的参数，这些参数是AI系统通过训练和再训练找出来的变量。这意味着OpenAI需要长时间访问强大的云计算服务。

为了应对这一挑战，微软不得不找到方法将成千上万个英伟达公司的A100图形芯片串联在一起 —— 这是训练AI模型的工作马。并改变服务器在机架上的位置，以防止停电。微软负责云和人工智能的执行副总裁Scott Guthrie没有给出项目的具体成本，但表示“这可能比几亿美元还要高”。

Scott Guthrie摄影师：Grant Hindsley/Bloomberg“我们构建了一个可以在非常大规模下运行并可靠的系统架构。这就是导致ChatGPT成为可能的原因，”微软Azure AI基础设施总经理Nidhi Chappell说。“这是其中一个模型的结果。还会有很多其他的模型。”

这项技术使OpenAI能够发布ChatGPT，这款病毒式聊天机器人在11月公开亮相后吸引了超过100万用户，并且现在被引入到其他公司的商业模型中，包括亿万富翁对冲基金创始人Ken Griffin旗下的公司以及食品配送服务Instacart公司。随着像ChatGPT这样的生成式AI工具引起企业和消费者的兴趣，云服务提供商如微软、亚马逊和谷歌等将面临更大的压力，以确保它们的数据中心能够提供所需的巨大计算能力。

Nidhi Chappell摄影师：Dan DeLong/微软现在微软正在使用为OpenAI构建的同一套资源来训练和运行自己的大型人工智能模型，包括上个月推出的新Bing搜索机器人。它还将这套系统出售给其他客户。这家软件巨头已经开始着手下一代AI超级计算机的研发，这是与OpenAI的扩大交易的一部分，微软向其投资增加了100亿美元。

“我们没有为他们构建一个定制的东西 — 它起初是一个定制的东西，但我们总是以一种通用的方式构建它，以便任何想要训练大型语言模型的人都可以利用相同的改进，” Guthrie在一次采访中说道。“这确实帮助我们成为一个更好的人工智能云。”

训练一个庞大的人工智能模型需要一个大型连接的图形处理单元池，就像微软组装的人工智能超级计算机一样。一旦模型投入使用，回答用户提出的所有查询 — 称为推理 — 需要一个稍微不同的设置。微软还部署了用于推理的图形芯片，但这些处理器 — 数十万个 — 分散在公司的60多个数据中心区域。现在，公司正在为人工智能工作负载添加最新的英伟达图形芯片 — H100 — 和英伟达最新版本的Infiniband网络技术，以便更快地共享数据，微软在周一的一篇博客文章中表示。

阅读更多：人工智能消耗多少能源？没有人知道确切答案

新版Bing仍处于预览阶段，微软正在逐渐从等待名单中添加更多用户。Guthrie的团队每天与约两打员工举行一次会议，他们被称为“维修组”，这个名字来源于在比赛中间调整赛车的一群技工。这个团队的工作是快速找出如何在线增加更多的计算能力，以及解决出现的问题。

“这非常像一个聚会，就像，‘嘿，有人有好主意，让我们今天把它放在桌子上，让我们讨论一下，让我们弄清楚，好的，我们能不能节省几分钟？我们能不能节省几个小时？几天？’” Guthrie说道。

云服务依赖于成千上万不同的部件和物品 — 服务器的单个部件、管道、建筑物的混凝土、不同的金属和矿物 — 任何一个组件的延迟或短缺，无论多么微小，都可能导致一切混乱。最近，维修团队不得不应对电缆托盘的短缺 — 这种像篮子一样的装置用来承载机器上的电缆。因此，他们设计了一种新的电缆托盘，微软可以自行制造或找到其他地方购买。他们还致力于在全球现有的数据中心中尽可能多地安装服务器，这样他们就不必等待新建筑物，Guthrie说。

当OpenAI或微软正在训练一个大型AI模型时，工作是同时进行的。它被分配到所有的GPU上，而在某些时刻，这些单元需要相互通信以共享他们所做的工作。对于AI超级计算机，微软必须确保处理所有芯片之间通信的网络设备能够承受这种负荷，并且必须开发软件以充分利用GPU和网络设备。该公司现在已经开发出一种软件，使其能够训练具有数万亿参数的模型。

由于所有机器同时启动，微软必须考虑它们的放置位置以及电源的位置。否则，你就会遇到数据中心版本的情况，就像在厨房里同时打开微波炉、烤面包机和吸尘器时会发生的情况，Guthrie说。

该公司还必须确保能够冷却所有这些机器和芯片，并使用蒸发、在较冷气候中使用外部空气以及在炎热气候中使用高科技沼气冷却器，Azure全球基础设施总监Alistair Speirs说。

微软将继续致力于定制服务器和芯片设计，以及优化供应链的方式，以获取任何速度增益、效率和成本节省，Guthrie说。

“目前让全世界瞩目的模型是建立在我们几年前开始构建的超级计算机上的。新模型将建立在我们正在训练的新超级计算机上，它更大，将实现更多的复杂性，”他说。