美国制裁推动中国企业在没有最新芯片的情况下推进人工智能 - 华尔街日报
Karen Hao in Hong Kong and Raffaele Huang in Singapore
美国的制裁正在促使中国科技公司加快研究,开发尖端人工智能技术,而不依赖最新的美国芯片。
《华尔街日报》对研究论文进行了审查,并采访了员工,发现中国公司正在研究技术,可以让他们用更少或性能较弱的半导体实现最先进的人工智能性能。他们还在研究如何结合不同类型的芯片,以避免依赖任何一种硬件。
中国电信提供商华为技术、搜索公司百度和电商巨头阿里巴巴集团等公司正在寻找方法,从现有的计算机芯片中获取更多效用。
研究人员和分析师表示,利用这些变通方法赶上美国人工智能领导者仍然是一个重大挑战。然而,一些实验显示出了希望,如果研究取得成功,这将使中国科技公司既能应对美国的制裁,又能使它们更具抗击未来限制的能力。
华为和百度拒绝置评。阿里巴巴未回复置评请求。
随着商业化ChatGPT类模型的竞争加剧,全球公司需要更强大的芯片,并寻求方法来充分利用它们,以降低人工智能开发的不断增长的成本。
对于中国公司来说,问题更为关键:美国的制裁已经使他们无法获得类似Nvidia等公司生产的最先进芯片,并且员工、人工智能研究人员和行业分析师表示,他们已迅速消耗现有的美国芯片库存,以创建自己的ChatGPT等效产品。
“读者可以从字里行间感受到,他们正在努力寻找任何计算资源来弥补顶级硬件的不足,”Meta Platforms的AI研究员Susan Zhang说道,她专注于AI基础设施和大型语言模型。在AI行业,计算指的是一组芯片中可用的计算能力。
北京最高决策机构上个月表示,中国应该鼓励人工智能通用技术的创新发展。
商务部去年十月对向中国供应芯片实施了广泛限制之后,拜登政府已表示可能会实施进一步制裁。
中国公司无法获得Nvidia的A100芯片,这是AI开发中最受欢迎的芯片,以及今年三月发布的下一代版本H100,提供更多的计算能力。
Nvidia为中国市场创建了其芯片的降级版本,分别称为A800和H800,以满足制裁要求。这两款修改后的芯片降低了芯片与其他芯片通信的能力。
这些产品为开发小规模AI模型提供了有效的替代方案,比如用于字节跳动短视频应用TikTok推荐算法的模型。但这种限制阻碍了需要数百或数千个芯片协同工作的大型AI模型的发展。
美国对半导体出口的限制意味着中国的人工智能开发者不再能够使用业界青睐的英伟达A100芯片。图片: Feature China/Barcroft Media/Getty Images在芯片制裁宣布一个月后,OpenAI发布了ChatGPT。这一发布引发了全球范围内开发生成式人工智能的狂潮,这种软件可以生成文本和图像,需要前所未有的计算能力来开发。瑞银分析师估计,训练这类大型人工智能模型需要5000到10000个A100芯片。OpenAI没有回应置评请求。
中国政府相关半导体行业协会在最近的一次闭门行业会议上发布的一项调查显示了供应限制,一位参加会议的人士称,中国目前有大约40,000到50,000个A100芯片可用于训练大规模人工智能模型。该协会没有回应置评请求。
阿里巴巴和百度等中国公司在制裁前囤积了A100芯片,现在已经严格限制了内部使用外国先进芯片,将其保留用于最具计算密集性的任务,知情人士称。
百度暂停了其各团队对A100芯片的使用,包括其自动驾驶部门,将它们集中用于开发其ChatGPT等效的Ernie Bot,此前《华尔街日报》曾报道。
百度近年来一直试图将国产芯片纳入其人工智能开发中,包括海光信息技术的DCU、华为的AI训练芯片Ascend,以及自家的Kunlun,根据开源研究论文和知情人士的说法。然而,许多国产芯片仍然不够可靠,无法用于训练大规模模型,因为它们容易崩溃,一些人士称。
许多中国公司现在正在尝试将三到四个较不先进的芯片(包括A800和H800)组合起来,以模拟英伟达最强大处理器之一的性能,新加坡国立大学教授、运营AI基础设施公司HPC-AI Tech的杨友表示。
四月份,腾讯推出了一个新的计算集群——使用英伟达的H800s进行大规模AI模型训练的一组连接芯片。
百度整合了其A100芯片库存,开发了AI驱动的Ernie Bot。图片来源: 王庭树/路透社这种方法可能成本高昂:如果一家美国公司需要1000个H100来训练一个大型语言模型,一家中国公司可能需要3000个或更多的H800才能达到相同的结果,杨先生说。
这促使一些公司加快开发跨不同类型芯片训练大规模AI模型的技术,杨先生说,这是一个研究领域,对于那些渴望降低成本的硬件资源有限的中国公司来说,这已经很普遍了。文件显示,阿里巴巴、百度和华为已经试图使用各种组合的A100、较旧一代的英伟达芯片(称为V100和P100)以及华为Ascend芯片。
相比之下,由于技术挑战,美国公司很少使用多种类型的芯片,AI专家表示。“这是最后的手段,”Meta的张女士说。
与此同时,中国公司一直在寻求使用各种软件技术来降低训练大规模AI模型的计算强度,这种方法在全球范围内加速发展,包括在美国公司中也是如此。然而,与美国公司不同的是,中国公司更积极地将多种软件技术结合在一起,文件显示。
尽管许多这些方法仍在全球研究界得到完善并且难以实施,但中国研究人员已经取得了一些成功。
华为研究人员在三月份的一篇论文中展示了他们如何利用这些技术来训练最新一代的大型语言模型,仅使用公司的Ascend芯片而不使用Nvidia芯片。研究人员在论文中写道,尽管存在一些缺点,这个名为PanGu-Σ的模型在一些中文任务上达到了最先进的性能,包括阅读理解和语法挑战。
OpenAI在十一月推出ChatGPT引发了全球开发生成式人工智能的狂潮。图片: Clara Mokri for The Wall Street Journal半导体研究和咨询公司SemiAnalysis的首席分析师Dylan Patel表示,如果没有新的Nvidia H100,中国研究人员的困境只会加剧,该芯片包含一项额外的性能提升功能,对于训练类似ChatGPT的模型特别有帮助。
但百度和深圳市研究院鹏城实验室去年发表的一篇论文显示,研究人员正在以一种使这一功能变得不必要的方式训练大型语言模型。Patel先生表示,尽管研究处于早期阶段,但看起来很有前途。
“如果运行良好,他们可以有效地规避制裁,”他说。
请写信给Karen Hao,邮箱为 [email protected],以及Raffaele Huang,邮箱为 [email protected]
2023年5月8日印刷版上出现为“中国人工智能制造商绕过美国制裁”。