AGI 已经到来了吗?还是即将到来呢?亦或是 AGI 也是一种“技术乌托邦”?
AI 的能力究竟该如何进行预测呢?AGI 给人类带来的到底是“祝福”还是“诅咒”呢?
最近,Epoch AI 的一位高级研究员名叫 Ege Erdil,他论证了怎样去预测 AI 的能力。
基于当前 AI 能力进行外推预测时,通常在估计 AI 在已具备基础能力的任务上的进展速度方面更可靠。
第一性原理推理在于,在对那些 AI 尚无法完成或者只能极其勉强完成的任务进行预测时,往往会更加准确。
他认为结合两种方法后,到 2030 年实现人类智力水平的 AI 是有可能性的,这个可能性至少为 10%,而乐观估计的话则为 20%。
此外,AI 未来带来的经济收益主要源自它目前还未掌握的任务。如果只是依靠第一种外推法,就很有可能会严重低估 AI 未来的发展速度、广度以及影响力。
预测AI也得讲道理
在尝试对 AI 系统未来的能力以及它将带来的经济和社会影响进行预测时,一般存在两种不同的方法:
回顾过去以及事物变化的速度,接着尝试把现在的情况向外推至未来。这种方式倾向于依据过去的数据和趋势来对未来的走向进行推测。
基于第一性原理进行推理时,要考虑到人脑的能力以及资源的使用情况,还要考虑不同领域训练数据的可用性,以及获取不同任务奖励信号的成本等,以此来估计自动化任务的难度。这种方法较为理论化,它是依靠对基本事实的理解来进行逻辑推理的。
这两种方法代表了预测AI能力的两种根本不同的方式。
经济学家更常青睐第一种方法,这种方法依赖于历史数据和趋势分析,并且便于理解和应用。
第二种方法更适合用来深入地探讨技术可行性及其所受的限制,它提供了关于 AI 发展可能会遇到的技术障碍的洞察。
每种方法都有自身独特的优势,同时也存在一定的局限。在实践过程中,有可能会将多种方法结合起来使用,这样就能获得更为全面的视角。
采用第一种方法的人在进行预测时,通常会有这样的假设:未来 AI 所面对的最容易完成的任务,和 AI 在那个时候能够完成的任务是相似的。
2013 年出版的一篇经济学论文里,Frey 和 Osborne 尝试去估算不同职业对计算机化的敏感程度,其中有一段话很好地对这一观点进行了概括。
计算机能够执行的任务,最终是由程序员来决定的。程序员需要编写一套程序或规则,以便在各种可能的情况下,都能正确地引导技术。
因此,一个问题能够被明确地指定,即成功的标准是可以量化的,并且能够被轻易地评估。在这种情况下,计算机相对于人类劳动会表现得更加高效。
文章链接:
当时这一预测具有一定合理性。然而,在接下来的十年时间里,伴随着深度学习的不断进步,这一预测被证实是错误的。
AI:从监督学习到GenAI
如今,LLM 具备执行许多任务的能力,然而人类甚至都无法完全知晓其内部原理。
而且,清晰的问题定义依然重要,但其重要性表现在不同的方面。
深度学习革命之后,AI 经济学中出现了一种新的视角,这种视角把 AI 系统当作“预测机器”(Prediction Machines)。
这一观点反映了当时 AI 系统的能力:在 2012 年到 2019 年这段时间里,适用于预测任务的监督学习方法在该领域占据主导地位。
一些人再次犯了类似错误,他们简单地进行假设,以为 AI 的未来就如同 2010 年代中期的监督学习那样,只是具备更强大的预测能力。
从《预测机器》中能够看到一些相关的引用,这些引用清楚地表明了这一点。
我们见到的进步主要出现在机器学习领域,而机器学习更确切地说是一种统计学方面的进步,并且是非常重大的进步;具体而言,是在用于生成预测的那些统计方法上取得了进步。
新的AI技术将极大降低什么成本?预测。
因此,经济学告诉我们,预测的使用会大幅增加。同时,我们还会在一些新领域中看到预测令人惊讶地适用。
Frey 和 Osborne 做出了预测,就如同计算机化一样,上述的新推测后来也被推翻了。具体而言,是 AI 领域朝着无监督学习的方向发生了转变,同时如今所谓的“生成式 AI”(Generative AI)开始兴起。
AI 研究者和未来学家常常使用一种推理方法,这种方法是从第一性原理出发的,与上述例子相比,他们更常使用这种方法。
其中最著名的例子可能是Ray Kurzweil。
1999 年,他对人脑的计算能力进行了估算,约为 10^{16}次运算每秒。同时,他结合摩尔定律(Moore’s Law)进行预测,认为人类水平的 AI 系统将在 2029 年诞生。
摩尔定律
外推预测的风险
使用简单模型把过去的数据向外推延至未来,这是一种经过验证的预测方式,在诸多领域都能适用。
然而,在AI领域,如果仅依赖这种方法,存在严重的局限性。
主要问题是这类方法过度依赖 AI 过去及当前的能力,从而低估了未来 AI 的突破,尤其在当前完全无法胜任的任务方面。
采用这种方法时,预测者在有意识地试图考虑 AI 未来可能的进步时,仍然倾向于认为未来的 AI 只是现在 AI 的增强版,并且其能力范围会逐步扩展到与现有任务相邻的领域。
目前,这种错误的最新表现形式为把 AI 的最新发展限制在“生成式 AI”(Generative AI)的框架当中。 目前,这种错误的最新表现形式是将 AI 的最新发展约束在“生成式 AI”(Generative AI)的框架之内。 目前,这种错误的最新表现形式是把 AI 的最新发展限定在“生成式 AI”(Generative AI)的框架里。
过去有“预测机器”的概念,这种狭隘的视角给人造成了一种误解,让人以为可以通过简单推测“今天的图像生成器和聊天机器人会变得更便宜、更高效”来预测 AI 未来的能力。
这种方法的局限性不可忽视 。
为说明并提醒 AI 发展的不可预测性,下方列出了一张表格。此表格展示了 2016 年人们认为的 AI 重要能力清单。对比今天的发展情况,可发现当时的许多预测已过时。
请注意,对于 2025 年的用户而言重要的能力,如问答、阅读理解、图像生成、编程、数学,在表中均未出现。
这些新能力的出现是因为 scaling law 以及算法取得了进步。
如果仅使用朴素外推法去预测 2025 年的 AI 系统性能,那么没人能预料到这些能力。
我们应该期待,AI 现在的能力和十年后的能力之间会存在很大的差异。这应当成为大家都认可的一种观点。
不宜外推AI对经济影响
Acemoglu 在最近的论文里犯了错误,他过度依赖了这种简单外推法。
Acemoglu参考了其他几位作者的研究。这些作者对不同经济任务被 LLM 自动化影响的程度进行了估算。同时,这些作者也对在这些受影响任务上可能合理预期的成本节约进行了估算。
Acemoglu 做出估计,由于 AI 的作用,在未来的十年时间里,经济产出将会增长 0.7%。这个数字是通过结合三种不同的估算而得出的。
Eloundou 等人在 2023 年进行的估计显示,在美国,按照工资账单来计算的话,大约有 20%的任务处于由大语言模型所实现的自动化的影响之下。
Svanberg 等人估计,在当下处于计算机视觉系统自动化所涉及的任务里,仅有 23%的任务实际进行自动化是具备成本效益的。
Acemoglu 假设,在这些自动化任务方面,与由人类来执行这些任务相比,平均能够节省大概 30%的劳动力成本。
Acemoglu 进一步进行估计,这些任务的成本中大约有 50%是劳动力成本。所以,总成本的节约约为 15%,这是因为劳动力成本节约了 30%,而劳动力成本又占总成本的 50%。
最后,关于这种自动化对GDP影响的粗略计算方法是:
首先计算成本减少的任务比例,这个比例大概是 0.2 乘以 0.23,结果为 4.6%。
首先,考虑到生产力提升的隐含值约为 1/0.85,其值为 17.6%。这是因为成本节约了 15%,这就意味着原本的成本效率提高到了 100/(100 - 15),约等于 117.6%,也就是提升了 17.6%。
首先,将 4.6%与 17.6%这两个数值相乘。然后,得出的结果就是总全要素生产率的影响大约为 0.8%。
这个分析给出了对自动化技术所能带来的经济效益的量化看法,不过实际情形或许会由于诸多因素而存在差异。
论文地址:
这是一个关于某种假设性技术的经济产出影响的合理估计,这种技术可能总结为“LLMs,但更好”。
然而,这并非我们对未来 10 年内的 AI 系统应有的期望:我们应期望它们能执行诸多当前 AI 根本无法执行的任务。
例如,下图展示了测试时计算范式转变对LLM数学性能影响。
基本观点是,目前AI能够做到的事情并不能讲好未来的故事。
想要预测未来几年之外的 AI 发展的话,把目光仅仅局限于当前 AI 系统的能力不好,把目光仅仅局限于这些能力的当前变化速度也不好。
推理模型超越数学性能的历史趋势
从先验的角度去看,在未来的十年时间里,我们应当期待会有很多这样的不连续情况以及突然展现出来的能力。
因此,目前基于 AI 的能力来进行预测,这种方式看起来较为稳妥且合理。然而,实际上这种方法很有可能存在严重的不准确情况。
相反,那种能够允许技术进步突然加快以及新能力得以出现的更具推测性的方式,或许能够做出更优的预测。
有什么替代方法吗?
无法回避的问题在于,预测未来这件事本身就极具难度。尤其是在没有明确趋势可供用来外推的时候。
目前没有针对远程办公任务和机器人技术的高质量基准测试。即便存在这样的基准测试,也能发现当前系统在这些任务上的表现很差。并且,线性外推可能会把它们的成熟期推迟到几十年甚至几百年之后。
这显然不是预测 AI 何时能在这些任务上表现出色的合理方式。因为我们多次看到,基准测试的分数并非时间的线性函数。
参考人类大脑预测AI能力
对于这些“尚未涌现”的任务,也就是人类能够完成而当前 AI 完全无法完成的任务,预测时应该参考人类大脑以及其资源需求所提供的存在性证明。
人类大脑能够执行的认知任务,以下条件至少足以构建能够执行该任务的神经网络:
运行时的计算能力为 1e15 FLOP/s,此数值是对大脑执行计算的大致能力的估计。人类在 30 岁之前大约存活了 10 亿秒,训练计算量为 1e24 FLOP。训练算法的大小远小于 100MB,并且进化搜索算法变体所需的计算量远小于 1e45 FLOP。基因组的大小决定了大小限制,进化过程中可能发生的有效计算存在热力学极限,这决定了搜索计算限制。训练数据量与人类在终身学习过程中接触到的数据量是相当的。
要构建能够执行类似人类任务的 AI 系统,这些条件给出了一个在理论层面的下限。
这些目标中,在大部分任务上,目前新取得的进展能够满足条件 1、2 和 4。
大约 2 年前之前,AI 系统的训练计算能力未突破 1e24 FLOP。直到大约 2 年前,AI 系统的训练计算能力才突破 1e24 FLOP,进而达到了条件 2。
尚未有展现出超越人类能力的 AI 系统,这显示在很多领域,算法比人类大脑要逊色。还没达到条件 3 。
2030年AGI可能性:10%-20%
搜索满足条件3算法的实际算力需求,难以确定,也难以消除。
因此有保守的估计:在发现能够超越人脑的算法方面,所需投入的计算量,处于目前累计的计算量(或许在 1e26 到 1e30 FLOP 之间)与 1e45 FLOP 之间,且是均匀分布的。
预计到本年代末,累计计算量将增加大约1000倍。
目前的情况表明,人类找到正确算法的机会约为 20%。
即使将模型的不确定性考虑在内,把这个概率降低一半,到 2030 年实现人类水平的 AI 的可能性依然有 10%。
这甚至还没有考虑到以下可能性:
人类有别于进化,能够对算法搜索、模型训练和模型推理进行权衡,还能把训练计算量分摊到模型的所有部署实例当中。
这较差的算法,可能通过更多的训练和推理计算来弥补。
事实上,Ege Erdil 预料首批能达到人类水平的 AI 系统会进行这样的行为。
鉴于此,概率应当明显比 10%要高。(然而,具体高出多少,尚不得而知。)
结合 Moravec 悖论,我们对 AI 在哪些任务上会首先达到人类水平有了预期。这些任务是 AI 相对于人类具有更大数据优势且具有较小算法劣势的任务。
Eloundou 等人在 2023 年的论文得出结论,即需要科学技能的任务预计会抵抗 LLM 自动化。
论文链接:
Ege Erdil 认为:这种更广泛的视角实际上意味着,这恰恰是它更容易受到 AI 自动化影响的缘由。
原因在于,和感觉运动以及感知任务相比,科学推理并非是人类拥有高效算法的那种任务。
结论
基本的结论是,AI目前能做什么并不是重点。
如果想要预测 AI 在未来几年之后的发展情况,仅仅将当前 AI 系统所具备的能力,甚至是当前这些能力的变化速率当作锚点,这并不是一个好的想法。
应该从各种任务的内在难度去思考。当前 AI 系统在许多任务上完全无法胜任,然而这恰恰反映出使用 AI 自动化这些任务所需要的资源需求。
这样做之后,会得到一个对 AI 进展的图景,这个图景是更为乐观的,并且它更符合近期的历史。
许多人现在提出的论点是关于“生成式 AI”系统能力本质上受限的。如果在 2016 年用这些论点来预测当时 AI 系统的局限性,可能会表现得很糟糕。
我们希望预测更准确的话,就不应该依赖过去表现不佳的预测方法。
参考资料: