专业风险管理人员如何看待人工智能带来的威胁 - 彭博社
Aaron Brown
未来来临迅速。
摄影师:达斯汀·钱伯斯/彭博社通过盖蒂图片社
自从E·M·福斯特于1909年出版了《机器停止》以来,失控的人工智能一直是科幻小说的主题,并在2023年引起了广泛的重视。美国国家标准与技术研究所于2023年1月发布了其AI风险管理框架。随后出台了其他文件,包括拜登政府于10月30日发布的行政命令 安全、可靠和值得信赖的人工智能,以及次日由28个国家和欧盟签署的 关于人工智能安全的布莱切利宣言。
作为一名专业风险管理人员,我发现所有这些文件都存在不足。我发现在小说中更多地体现了风险原则。1939年,作家艾萨克·阿西莫夫厌倦了阅读关于智能机器反击其创造者的故事。他坚持认为足够聪明以建造智能机器的人不会愚蠢到忽略道德控制——这是所有智能机器基本电路深处的基本覆盖。阿西莫夫的第一法则是:“机器人不得伤害人类,也不得因不作为而使人类受到伤害。”无论人工智能的目标如何,都不得违反这一法则。
或者考虑阿瑟·克拉克(Arthur C. Clarke)在1968年电影中著名的HAL 9000计算机,《2001太空漫游》。HAL的故障不是由于计算机错误,而是因为它正确地计算出人类宇航员正在减少任务成功的机会 - 这是它的编程目标。克拉克的解决方案是确保对AI进行手动覆盖,超出AI系统的知识和控制范围。这就是弗兰克·鲍曼如何利用物理门互锁和禁用HAL的AI电路来胜过HAL。
虽然对这两种方法都有异议,但它们通过了第一个风险管理测试。它们设想了一个糟糕的未来状态,并确定了那时人们希望你现在做的事情。相比之下,2023年的官方文件设想了糟糕的未来路径,并解决了我们不会选择它们的问题。问题在于未来路径的数量是无限的,其中大部分我们无法想象。有相对较少数量的可能的糟糕未来状态。在金融领域,一个糟糕的未来状态是有现金义务无法履行。有许多方法可以达到这一点,而我们总是承诺不会选择这些路径。承诺是好的,但风险管理教导我们关注今天可以做的事情,以使未来状态能够生存。
人类存在可能会终结的事情并不少见:小行星撞击、环境崩溃、大流行病、全球热核战争。这些都是盲目的危险。它们并不寻求伤害人类,因此有一些可能会有人类幸存。
两种危险本质上是不同的——受到恶意的智能外星人的攻击,以及受到我们自己建造的智能的攻击。一个隐藏着直到获得力量和位置来发动攻击的智能敌人,计划突破任何防御,并继续其战役直到取得完全胜利,这是一种不同类型的担忧,而不是盲目的灾难。
计算机控制的危险是众所周知的。软件错误可能导致不当行动,有时会导致致命后果。虽然这是一个严重的问题,但它是一个盲目的风险。人工智能提出了一种根本不同的危险,更接近于恶意的人类而不是故障的机器。通过人工智能和机器学习,人类给计算机设定目标而不是指令。有时这些目标是明确编程的,其他时候计算机被告知从训练集中推断出这些目标。人工智能算法是计算机用来实现目标的工具,而不是人类。由于目标的不经思考的规定而产生的危险并不是盲目或随机的。
这与一个愚蠢的计算机程序不同,其中人类详细说明了程序对所有输入的期望响应。有时程序员会犯错误,这些错误在测试中没有被发现。最糟糕的错误通常是与其他程序的意外交互,而不是单个程序的错误。当软件错误或计算机故障发生时,它们会导致随机结果。大多数情况下,后果仅限于计算机设计用来控制的系统。
这是愚蠢和智能程序之间的另一个关键风险区别。控制核电站的传统计算机可能会导致核电站的熔毁,但它不能发射核导弹,使股票市场崩溃,或者通过打开你的空微波炉来烧毁你的房子。但是恶意的智能可能是从许多人工智能实现的相互作用中产生的新现象,几乎控制着一切。
人类的智慧,例如,可能起源于为视觉、肌肉控制、调节身体功能和其他任务而进化的个体算法。所有这些任务对人类都是有益的。但在这种新兴的意识中,大批人选择合作进行复杂的专业任务,建造能够摧毁地球上所有生命的核武器。这并不是唯一一个从人类智慧中产生的可怕的、毁灭生命的想法 — 想想种族灭绝、酷刑、国王的神圣权利、圣战和奴隶制。当今个体人工智能程序缺乏摧毁人类所需的复杂性和力量,大多数都有良性目标,这并不意味着新兴的人工智能智慧会比人类更友善。
我对2024年的希望是我们将对人工智能进行严肃的逆向压力测试。我们邀请各种各样的人群 — 不仅仅是官员和专家 — 让他们假设某种特定的不良状态。也许是2050年,天网已经杀死了其他所有人类(我经常向人群展示灾难电影,以准备进行逆向压力测试,这有助于营造氛围并激发人们的创造力 — 这是好莱坞对风险管理的巨大贡献)。你们是最后的幸存者,躲藏直到终结者找到并终结你们。讨论你们希望人们在2024年做些什么,不是为了阻止这种状态发生,而是为了在2050年给你们一些生存的手段。
更多来自彭博观点:
想要更多彭博观点吗? OPIN <GO>。或订阅我们的每日新闻简报**。**