发布信息

AI智能体的摩尔定律:Nature报道AI长期任务完成速度每七个月翻一番

作者:软荐小编      2025-03-22 15:01:36     189

AI Agents(智能体)也有自己的“摩尔定律”了?!

最近,Nature 对来自非营利研究机构 METR 的一项最新发现进行了报道。

AI 在完成长期任务方面取得了惊人的进步,这种进步的时间跨度大概每七个月就会翻一番。

_摩尔定律多久翻一番_摩尔提出摩尔定律

研究人员提出了“50%-任务完成时间跨度(50%-task-completion time horizon)”这一指标,目的是衡量 Agent 自动完成任务的能力变化。

他们以 50%的任务成功率作为基准。假设 2019 年 AI 达到这一目标所需要的时间,对于人类来说是 10 分钟。7 个月之后,与之对应的人类完成任务的时间就变成了 20 分钟。

AI 可以胜任越来越多的任务,这些任务原本需要人工花费很长时间。并且,AI 的能力在逐渐增强。

_摩尔定律多久翻一番_摩尔提出摩尔定律

2024 年增长速度加快了。一些最新的模型,其增长速度大约每三个月就会翻一番。

预计大约五年之后,AI 能够自动完成诸多如今人类需花费一个月时间才能完成的任务。

网友们纷纷表示,这下终于对AI进步神速有实感了!

摩尔提出摩尔定律_摩尔定律多久翻一番_

提出“50%-任务完成时间跨度”指标

在 METR 的介绍里,他们把这一发现称作“Moore’s Law for AI agents”,即“智能体摩尔定律”。

_摩尔定律多久翻一番_摩尔提出摩尔定律

下面我们详细展开其研究方法。

他们主要让 AI 和专业人员在相似条件下尝试完成任务,接着测量人类所需时间,最后比较 AI 成功率随人类完成时间长短的变化情况。

摩尔提出摩尔定律_摩尔定律多久翻一番_

这第一步中,研究团队选取了三个各不相同的任务套件,目的是对 AI 模型的能力进行评估。

97 个 HCAST 任务,这些任务涵盖了软件工程、机器学习、网络安全和一般推理等方面的挑战,是一个多样化的任务集合。其难度各不相同,有的任务只需几分钟就能完成,而有的任务则需要 30 小时。

7 个 RE-Bench 任务,它们由七个开放式的机器学习研究工程环境构成。每个任务都需要人类专家大约 8 小时才能完成。

66 个 SWAA 任务,它们代表着软件开发过程中的单个步骤操作。这些任务的时长在 1 秒到 30 秒之间。

接下来,为了对 AI 模型的表现进行量化评估,团队招募了 800 多名专业人员,这些人员来自软件工程、机器学习和网络安全领域。他们被安排执行任务,同时团队记录下他们完成任务所需要的时间。

METR 介绍称,在这些任务里,人类完成这些任务所花费的时间在 1 秒到 16 小时这个范围之间。

这些时间被当作衡量任务难度的标准。

摩尔定律多久翻一番_摩尔提出摩尔定律_

他们接着评估了 2019 年到 2025 年发布的 13 个前沿 AI 模型,其中有 GPT 系列以及 o1、Sonnet 3.7 等。他们通过在构建的任务套件上运行这些模型,来记录这些模型完成任务的成功率。

关键在于,接着他们引入了一个新的指标。这个指标是 50%任务完成时间跨度(50%-task-completion time horizon),意思是 AI 模型在 50%的成功率情况下能够完成的任务的平均时间长度。

选择 50%这一成功率,主要是因为它在数据分布有微小变化时最为稳健。

简单来说,当数据的分布出现一些小的改变,比如数据的特征、比例或趋势等发生变化时,这个指标不会被太大影响,依然能够保持相对稳定的表现。

论文作者之一Lawrence Chan表示:

如果你选择了非常低的阈值,那么移除一个成功的任务会对你的估计值产生很大影响;如果你选择了非常高的阈值,那么增加一个失败的任务会对你的估计值产生很大影响。

团队利用这一指标,对 AI 模型在各个任务上的成功与失败数据进行逻辑回归分析,然后计算出每个模型的时间跨度。这个时间跨度指的是当模型完成任务的成功率达到 50%时,对应的人类完成任务所需要的时间。

(每个模型在每个任务上运行8次,记录成功率)

摩尔提出摩尔定律__摩尔定律多久翻一番

这些数据使得团队最终绘制出了图表,该图表展示的是模型自主性随时间呈指数变化的情况。

_摩尔定律多久翻一番_摩尔提出摩尔定律

发现“AI智能体摩尔定律”

如上图所示,研究的主要发现是:

2019 年之后,AI 模型的时间跨度呈现出指数式的增长态势,大约每过七个月就会翻倍一次。

为了验证研究结果的外部有效性,他们又进行了以下四个实验:

使用 2023 年到 2025 年的数据进行回溯预测,以此来验证趋势的一致性;针对 HCAST 和 RE-Bench 任务,依据 16 个“混乱”因素进行评级,进而分析任务的混乱程度对模型性能所产生的影响;在其他 SWE-bench Verified 数据集中运用相同的方法,然后对比结果;在内部的 Pull Requests(PR)任务上对模型性能进行测试,并且与人类基线进行对比。

最终,这一趋势得到了以上外部验证。

在第 2 个实验里,所谓的 16 个“混乱(messy)”因素指的是现实任务比研究任务更难的那些方面。这些方面包括任务是否受到有限资源的限制,是否涉及实时协调,以及是否源自现实世界的环境。

每个任务都依据这些因素获得了一个“混乱度(messiness score)”的分数。

研究人员发现,AI 模型在一些更加混乱的任务上,例如缺乏明确提示和反馈,需要 AI 主动去获取信息,任务条件和要求比较模糊等情况时,其绝对性能是较低的。但另一方面,它的性能在不断地稳步提升。

更有意思的是,不论任务的“混乱”程度处在何种状况下,AI 都在以相近的速度进行提升。

_摩尔定律多久翻一番_摩尔提出摩尔定律

比如在 SWE-bench Verified 基准上进行验证时,他们也观察到了一种类似的呈指数级增长的趋势。

不过由于标注时间的问题,该基准测试的时间跨度翻倍时间更短。

摩尔提出摩尔定律__摩尔定律多久翻一番

总之,依据“智能体摩尔定律”来进行预测,AI 有在 2028 年 11 月达到一个月任务时间跨度的可能;并且在比较保守的估计情形下,这一目标或许会在 2031 年 2 月得以实现。

METR 团队认为,研究存在一些需要完善的地方,比如任务套件具有局限性、评估指标不完美以及未来 AI 发展具有不确定性等。然而,他们很确信这一指标每年有 1 到 4 倍的增长趋势。

摩尔定律多久翻一番_摩尔提出摩尔定律_

结合现实中 Manus 智能体的走红这一情况,我们可以预见到智能体将会迎来爆发。

摩尔提出摩尔定律__摩尔定律多久翻一番

参考链接:

[1]

[2]

相关内容 查看全部