在算法和数据保持不变时,仅依靠算力规模的增大就能促使模型能力得以增强。比如,GPT-3 实际上是 GPT-2 的拓展版,然而因为算力有了极大的提升,所以 GPT-3 不但可以进行连贯的对话,还能够编写能够运行的计算机代码,进行语言翻译以及创作诗歌,而 GPT-2 在表现方面大多是杂乱无章、毫无逻辑的胡言乱语。
并且前沿 AI 系统算力的提升不但会优化相同任务的表现,还或许会促使新能力的出现。研究人员拥有两种途径来提升 AI 系统的算力:
1. 花费更多资金购买更强的计算资源;
2. 开发出更高效的硬件,使相同成本下的算力更强。
软件:开发更好的 AI 模型
AI 软件包含除算力层硬件之外的诸多方面,例如 AI 技术范式,还有系统架构,像训练算法,以及数据获取,包括参数调整,以及 fine-tuning 的方法等。
AI 软件进步可以进一步分为两类:
新 AI 系统在执行与之前 AI 系统大致相同的任务时,能够降低计算成本,实现了效率改进。
能力得到改进,新的 AI 系统具备这样的能力,它可以完成之前的系统完全没有办法做到的任务,也能够在相同的任务上呈现出更加出色的表现。
在实践里,效率改进与能力改进之间的界限,有时是比较模糊的。比如,更高的训练效率能够训练出更大的 AI 模型,而更大的模型通常会展现出新的能力或者更好的性能。
AI 软件的进步难以衡量,特别是能力方面的改进。比如 GPT 是通过 GPT-3.5 实现了更具信息性的对话,并且将其集成到直观的用户界面中而开发出来的。那么如何去量化 GPT 在与用户高效对话方面的进步呢?又如何衡量良好的用户界面所带来的提升呢?
相比之下,衡量效率改进比较容易。例如,可以对 AI 系统在达到特定性能水平时所需的算力进行比较。
在下图里,LLM 的训练效率估计值大概是 8 个月翻倍,这个估计值是相对保守的。原因在于没有把训练后的改进考虑进去。而运行效率估计值大约是 4 个月翻倍,这个估计值显得相对激进,这是因为其中包含了软件之外的因素。
在这两个估计值之间取均值的话,能够得出训练效率具有约 6 个月效率翻倍的时间,同时运行效率也具有约 6 个月效率翻倍的时间。
不同分析方式下,AI 效率翻倍所需时间
AI 能力的进步 > 算力成本下降
AI 能力提升相当显著,除了效率提升之外。并且,AI 能力提升可能比效率提升更重要。
最近 AI 系统的新能力在提升系统实用性方面表现突出,其效率提升远超已有能力的效率提升。在过去的 10 年里,AI 经济重要性的增加主要是因为 AI 新能力的出现,而非已有能力在算力要求上的降低。
LLM 的能力有了提升。RLHF 让对 LLM 进行“微调”这件事成为可能,能够让它去扮演特定的角色,而不是仅仅模仿互联网文本。另外,LLM 训练效率提升后,也可以转化为能力的提升,通过 scaling 能够让新的能力涌现出来。
LLM 公司可以通过两种方式将训练效率提升应用于 LLM:
创建一个 LLM,它的性能与之前的系统相当,然而它的速度更快,并且计算成本更低。
2. 创建计算成本相同(或更高)、但能力增强的系统。
大模型公司一般会同时展开这两种尝试。开发者往往对(2)感到更为兴奋,并且倾向于在流程里融入他们所能使用的最强模型。然而要是效率提升成为主要的推动力量,(1)就会引来更多行业的关注。
05.
终局猜想:
Agent 开发 Agent
前面提到,当 AI Agent 的能力足够强大时,极有很大可能会出现“Agent 开发 Agent”这样的现象。这一现象被 Forethought 界定为 ASARA,也就是 AI Systems for AI R&D Automation,意味着会出现一个 AI 系统,它能够将 AI 研发中所涉及的所有任务都完全实现自动化。
值得注意的是,训练新 AI 系统所需要的算力通常比运行已训练系统副本所需要的算力要大很多。这表明,倘若用于训练 ASARA 的算力被重新分配去用于运行,那么就能够同时运行数十万份甚至数百万份副本。如果每一份副本都能够达到顶尖人类研究者的表现水平,ASARA 的认知总输出很有可能等同于数百万名顶尖人类研究者。
目前,全球有数十万名研究人员在从事不同的 AI 软件研发工作。但绝大多数人员没有将精力集中在提升最先进的 AI 能力上。AI 研发能力还远远没有达到人类潜力的极限。然而,随着 ASARA 的出现,可以想象会有一个由数百万虚拟顶尖研究者组成的团队。这个团队中很大一部分可能会专注于推动最前沿的能力发展。
当前的 AI 软件进展速度表明 AI 效率的翻倍时间约为 6 个月。若 ASARA 提升进展速度,Forethought 粗略估计,AI 效率翻倍所需时间可能缩短至 1 - 2 个月。
如果这个循环完全无需人类进行干预,那么 AI 的进展速度或许会越来越快,最终能够达到软件智能爆炸(Software Intelligence Explosion,SIE),也就是说,仅仅由软件驱动的反馈循环在 ASARA 诞生之后也能够引发 AI 进步的加速。
在 SIE 状态下,假设硬件投入维持原样。人类研究人员会全部被 ASARA 所取代。AI 的进步会变得更快。并且 ASARA 自身的能力会持续增强。
一个演示 ASARA 发展的数学模型
我们能够构建一个简化的模型,以此来演示在达成 ASARA 之后的增长飞轮。假设总的算力维持不变,这个数学模型将会展示出两种情景假设:
软件研发存在收益递减的情况。随着软件的改进难度不断增大,进一步提升其性能也变得更具挑战性。
ASARA 日益强大所带来的是正反馈,更强大的系统会反过来推动进展变得更快。
该模型还包含几个简化假设:
ASARA 能够被分解成多个独立的 AI 研究员,每个这样的 AI 研究员都具备执行软件研发过程中所有任务的能力。
所有 AI 的进展都以撰写论文的形式体现出来,每一篇论文都意味着一个增量的进步,所以进展能够通过将论文的数量进行累计来简单地进行衡量。
所有 AI 研究员的生产力是一样的,能够简单地用每单位时间所撰写的论文数量来表示;
AI 研究员的生产力不会随时间而有高低变化,然而可以变得“计算更高效”,意思是运行每个 AI 研究员所需要的算力会减少。
•情景假设 1:软件研发的收益递减
假设一开始仅有 1 个 AI 研究员,这个 AI 研究员每月能撰写 1 篇论文。当撰写了 2 篇论文之后,其计算效率会翻倍。2 个月过后,在相同的硬件条件下,可以容纳 2 个 AI 研究员,每个研究员每月依旧可以撰写 1 篇论文,所以总生产力变为每月 2 篇论文。
因为软件研发存在收益递减的情况,所以下一次要实现效率翻倍所需的论文数量会增多。假设增多 3 倍,那就需要 6 篇论文。这样一来,有了 2 个 AI 研究员之后,他们需要花费 3 个月的时间撰写 6 篇论文,才能够达成第二次效率翻倍。
第 3 个月时,2 名研究员完成 6 篇论文撰写后进行了第二次效率升级,之后每人每月能撰写 3 篇论文。此时,硬件能力有所进步,能够容纳 4 个 AI 研究员。与此同时,第 3 次效率翻倍所需的论文数量变高了,假设再次增加 3 倍,就变为 18 篇论文。有了 4 个 AI 研究员后翻倍将需要 4.5 个月。
在这种状况下,每次效率翻倍所需要的时间呈现逐渐变长的趋势。其中,第一次效率翻倍需要 2 个月,第二次效率翻倍需要 3 个月,第三次效率翻倍需要 4.5 个月。
•情景假设 2:ASARA 飞轮带来的正反馈
同样假设最初仅有 1 个 AI 研究员,其每月能撰写 1 篇论文。当第一次效率翻倍时,就需要撰写 2 篇论文。而第二次效率再次翻倍的话,依然需要比第一次更多的论文,也就是说软件研发存在收益递减的情况,不过增加的数量不会太多。假设第二次效率翻倍需要撰写 3 篇论文,这比第一次多了 50%。
有了 2 个 AI 研究员后,每个 AI 研究员每月能撰写 1 篇论文。那么 3 篇论文大概需要 1.5 个月就能完成。按照这样的情况继续下去,速度会以翻倍的方式越来越快。
仅在这个简化模型的框架内进行推测,这就意味着在有限的时间里能够实现无限的进步。
总之,在软件研发收益递减的情况下,每次效率翻倍所需要的论文数量比上一次增加的幅度超过一倍,比如从 2 增加到 6,再从 6 增加到 18。这表明 AI 进展变得更困难的速度比 AI 研究员增长的速度要快。
在 ASARA 带来的飞轮里,每次效率翻倍时所需的论文数量比上一次增加的幅度不到一倍,比如从 2 增加到 3。这表明 AI 研究员增长的速度比效率翻倍变难的速度要快。
如果每次效率翻倍时所需的论文数量刚好翻倍,那么每次效率翻倍依然需要 2 个月。比如,2 个 AI 研究员需要完成 4 篇论文,而 4 个 AI 研究员则需要完成 8 篇论文,以此类推。
当在模型中既关注效率改进又关注能力改进时,如果能力改进使得 AI 的输出增加到与效率翻倍相同的程度,那么就可以说该能力改进使 AI 软件能力翻倍。
Forethought 借助软件研发回报率 r 去衡量对 AI 软件进行进一步改进的困难程度。r 意味着当 AI 软件研发的累计工作量翻倍时,AI 软件能力翻倍的次数。r 值越低,就说明改进变得越困难。
r 值设定如下:
当 r 等于 1 时,会出现持续的指数式增长情况。并且,每次软件能力翻倍的时候,都需要 2 倍的研究投入。
•当 r
当 r 大于 1 时,会对应出现 SIE。每次软件翻倍时,所需的研究投入比上一次翻倍所需的研究投入要少,且少于上一次的 2 倍。
假设在 ASARA 刚开始进行开发的时候,软件的翻倍时间被缩短到了 1 个月。
如果 r 等于 0.7,那么每次 AI 软件能力翻倍所需要的时间,相比上次会多 35%。这也就意味着,第二次软件能力翻倍会在 41 天后出现。第三次翻倍会在 55 天后发生。第四次翻倍会在 74 天后到来。第五次翻倍会在 100 天后出现。这会使得在不足一年的时间内,AI 软件的能力提升大概 30 倍,并且在随后的几年中,其进展会明显地变缓。
这个进展所对应的年度增长率或许和当前 AI 系统的提升速度相近。当前 AI 系统的提升包含多个方面,其中不仅有软件方面的进展,还有硬件方面的进展以及硬件支出的增加。
如果 r 等于 3,那么每次翻倍所需时间是上次的 63%。这意味着接下来的几次翻倍分别需要 19 天、12 天、7.6 天、4.8 天等,依次类推。
持续的指数增长或许显得不太可信,原因是 r 必须恰好为 1。不过,有可能是人类会采取行动来维持在这个微妙的平衡点上,例如人类可能会在希望进展加快和进展稍缓之间来回变动;人类也可能会有意识地制定政策,期望能够让 AI 系统的能力增长更加平稳。
由上述讨论可以得知,SIE 是否会发生完全取决于 r 是否大于 1。
现实世界中存在一个值得讨论的问题,那就是软件研发回报率是大于 1 还是小于 1 呢?
上述模型是针对 ASARA 场景的,即便当下未达到 ASARA,它也依然适用。在当前环境里,r 所表示的内容为,每当人类的研发累计工作量翻倍时,AI 软件能力翻倍的次数。所以能够通过对当前人类软件研发累计工作量的增长进行测量,并将此增长与 AI 软件能力的增长关联起来,从而估算出 r 的值。
Forethought 对图像识别领域进行了研究,也对 LLM 领域进行了研究,还对 AI 算法效率等领域进行了研究。同时考虑到了 AI 能力的提升,以及软件改进所带来的乘法效应,也就是说训练算法的改进与后期的微调以及搭建框架等技术之间是乘法性相互作用的。Forethought 表明人类软件研发累计工作翻倍时,AI 软件能力会有若干次翻倍。并且猜测 r 的最佳可能值在 1 到 4 之间。
这个结果实际上把软件的进展和硬件的进展置于类似的基础之上。Tom Davidson 曾经对硬件的 r 值进行了估算,他发现历史上的 r 值大概是 7。而对于 AI 芯片(特别是 GPU),从 2006 年到 2022 年,r 值约为 5,也就是说每次研发投入翻倍时,计算成本会降低 5 到 7 倍。硬件在过去几十年中发展迅速,这是广为人知的。然而,不太为人所知的是,软件进展或许也以类似的速度在增长。
然而,当前的 r 值从长期来看预计是难以持续的。对于具有固定数量的硬件而言,AI 能力的实现有着根本性的物理限制。当我们逐渐接近这个极限时,软件的进展或许会放慢。
但没有足够理由认为这一极限仅略高于第一个 ASARA 的水平,第一个 ASARA 可被视为在相关认知领域内替代人类工作者的首个系统。人类或许并非最智能的生命形式,而只是地球上首个足够聪明、能够从事科学和工程等活动的生命形式。人类的认知属性范围较为广泛。人类一直通过人口的增长来获益,也通过专业化以及各种文化的发展而受益。
此外,ASARA 很有可能会运用比人类大脑在发展进程中所使用的“计算量”还要大的算力来进行训练。这意味着在对 ASARA 进行训练以达到与人类学习相匹配的程度时,依然存在着非常明显的效率提升空间。
因此,目前 r 或许大于 1,不过最终会下降。在基本限制的情况下,r 得降到 0。这表明不管投入多少研发,进展都会停止。但当下并不清楚随着我们靠近极限,r 会怎样随时间而下降。即便如此,离这些限制越远,r 大于 1 的可能性就越大,发生 SIE 的机会也就越大。
还能注意到,要是我们越早达成 ASARA,由于那时 r 不一定已经降到 1,那么就越有可能出现 SIE。所以,较短的时间安排或许会提升 SIE 的可能性。
06.
软件智能爆炸的
瓶颈和解决方案
•硬件制约
上述分析是在算力不稀缺的背景下进行的。或许存在一种可能性,即在实现全自动的 Agent 系统的过程中,模型研发的作用并非如想象中那般重要,关键的推动因素或许是算力基础设置的增加。要知道,硬件能够用于运行模型训练,更多的硬件也就意味着能够进行更多或更大规模的模型训练。如果没有算力的持续扩展,也许大部分软件层的进展也会停滞。
软件效率提升会使模型训练的算力成本降低。若算法改进能让笔记本电脑可训练 GPT - 3 规模的 AI 系统,那么每个有笔记本电脑的研究人员都能运行自己 GPT - 3 规模的实验。即便硬件保持不变,随着时间推移,也可能进行更多实验,此效应或许足以维持快速的效率进展。
如果硬件限制确实对软件发展构成了瓶颈,那么 LLM 公司能够通过运行规模更小且价格更便宜的实验,并且把得出的结论推广到规模更大的系统当中,以此来弥补这一限制。之所以觉得可以从较小的实验中进行明显的外推,是因为 LLM 以及其他处于前沿的 AI 系统通常在用于训练系统的算力和系统的最终表现这两者之间存在极为明确的关系。
OpenAI 发现 GPT-4 的某些特性能够从之前算力小于 GPT-4 的训练中被高度预测。倘若执行软件研发的 ASARA 也能够凭借运行规模较小的 AI 实验来推测大规模训练的结果,那么或许完全可以越过大规模的训练。
ASARA 能够通过多种方式大幅提升模型训练的质量、效率和信息价值。例如,在开展实验之前就能排除错误以及细微的实验设计缺陷;会更加注重有前景的研究方向;从第一性原理出发进行更具价值的实验设计;对每个实验的结果进行深入剖析;把每个实验的结果与其他所有实验结果及证据进行综合考量;持续对实验进行监控;在获得重要结果后即刻终止实验等。
因此,AI 软件研发可能会转向一些特定的方向,这些方向本身并不依赖大规模实验。例如微调、构建和 prompt 等。这些方法的实验依然可能会带来实质性的进展。
在强硬件限制以及 ASARA 迅速拓展的背景下,甚至存在这样的可能:AI 领域会从依靠大计算量的机器学习转变为新的范式。这种新范式可能不太依赖实验,甚至会完全舍弃训练,转而走向显式设计所需的 AI 系统,就如同 GOFAI(Good Old-Fashioned Artificial Intelligence,即泛指用最原始的人工智能逻辑方法来解决小领域的问题)那样。
从另一个角度来看,即便硬件的实验限制还不足以让软件的进展停止下来,然而存在这些限制,依然有可能比没有限制时的进展要缓慢。上述那些解决方法或许仍然可以让 ASARA 在硬件限制的条件下取得具有实质意义的进展。
在 SIE 中,边际回报的递减趋势可能比历史数据所呈现的更为陡峭。历史上,计算资源一直处于增长状态,这使得研究人员能够发明出仅在新的计算规模下才有效的算法。然而,在 SIE 中,这种情况将不会出现,因为硬件保持不变,那些被限制在固定计算规模下的算法可能会导致边际回报的递减更加明显。
因为硬件有限制,Forethought 把 r 的最佳猜测估计值降低到 0.5 到 2 这个范围。如果 AI 发展需要进行大规模实验,那么估计值就会比较低;如果 prompt 和构建等方面的改进能够带来显著的进展,那么估计值就会比较高。
•训练新 AI 系统的所需时间较长
在当前的 AI 范式里,最强大的系统一般要通过两个阶段来进行训练。一个阶段是较长的“预训练 pre-training”阶段,另一个阶段是较短的“微调 fine-tuning”阶段。
最强大的系统,其 pre-training 可能会持续很长时间,需要持续几个月利用大型数据中心。近期 AI 有了进展,稍微改变了这种状况。因为这些进展暗示,在开发能力方面,fine-tuning 比传统认知中更为重要且更持久。不过,目前 fine-tuning 仍然远远短于 pre-training。
这些长时间的训练,无论是通过 pre-training 也好,还是通过越来越广泛的 fine-tuning 也罢,亦或是其他尚未开发的训练阶段,无论如何,都可能成为 AI 进展的瓶颈,从而会减缓 SIE 的发展。
如果每一代 ASARA 仅能创造出比自身稍许更聪明的系统,并且每一代都需历经漫长的训练进程,那么这或许会对进展产生极大的抑制作用。
但是,有几个原因显示,这类模型训练或许不会成为进展的瓶颈。进展或许可以通过其他方式来维持,比如专注于 prompt 以及较短的 fine-tuning 。也有可能开发出其他方法,从而能够在不重新训练的情况下继续发展,例如以新颖的方式对已有系统的部分功能进行修改。
此外,前文提到,AI 范式的转变或许能更清楚地避开这些障碍。若训练新的模型成为实现 ASARA 的瓶颈,那么此瓶颈会给该领域寻找其他替代方法带来极大的激励。即便从零开始训练新系统仍有必要,也仍可认为 SIE 有可能发生,因为训练新系统的速度有可能比现在提升。算法改进之后,训练新系统的效率会变高,这样每次训练所需要的时间就会减少。
ASARA 的训练时间最初是 2 个月。之后通过算法改进,效率提高了 30 倍。这些效率的提升,一方面可以用来训练更强大的系统,另一方面还可以用来训练既更强大又计算负担较轻的系统。
每次训练的时间若能比上一次稍快一些,那么训练时间最终有可能趋近于零,同时 AI 进展也可能变得极为迅速。所以,训练新 AI 系统的瓶颈有可能会延缓 SIE 的发生,而不是阻止其发生。
值得注意的是,训练 AI 系统所需的时间并非当前 AI 范式所固有的、不可改变的属性。它是各种相互竞争的因素之间的一种妥协,这些因素包括尽早完成训练的价值、算力的价格以及算力价格随时间变化的预期等。SIE 发生后,平衡会大幅倾向于尽快完成训练。因为进展极为迅速,所以系统可能很快就会过时。这就可能使得训练时间大大缩短。
训练新 AI 系统所需的时间仍是一个未决问题。虽有上述提到的可能性,但所有不涉及长时间训练的进展方法,有可能最终要么完全失败,要么无法维持足够进展。所以,要保持 r>1,即随着研发投入增加软件性能需不断翻倍(性能翻倍需更多训练时间),这可能会妨碍后续训练时间越来越短。
排版:杨乐乐