发布信息

手机游戏九宫格谜题难倒AI大模型,测试成绩惨不忍睹

作者:软荐小编      2025-03-29 09:06:21     107

你在手机游戏中轻松解开一道九宫格谜题时,或许会觉得它是个有趣的益智游戏。然而,你可能不会想到,同样的彩色方块正在 AI 领域引发一场风暴。对于当今最先进的 AI 模型来说,这样的小游戏却几乎成为不可逾越的难题。

在 ARC Prize 基金会最新发布的 ARC-AGI-2 测试里,像 OpenAI 的 GPT 以及谷歌的 Gemini 等这些知名的大模型,当面对看上去很简单的色块拼图问题时,却都纷纷“挂科”了。基础大模型以 GPT-4.5、Claude 3.7 Sonnet、Gemini 2 为代表,在这场测试中几乎仅获 0 分成绩。推理模型如 Claude Thinking、R1、o3-mini 等,其准确率也未超过 4%。这场智能评测领域的“高考”,正将当前 AI 面临的真实困境揭露出来。

ARC Prize 2025 竞赛的总奖金为 100 万美元,它回来了!ARC Prize 的联合创始人 Mike Knoop 在 X 平台上进行了宣布。ARC-AGI-2 基准测试对于人类而言依然是很容易的事情,但对于 AI 来说则更加困难,到目前为止还没有被攻克。这条推文很快就引起了 AI 开发者社区的热烈讨论。Chubby 长期关注 AI 相关技术,他也表示 Arc-AGI-2“比以往任何时候都更具挑战性”。这正好印证了测试的严苛性,因为即便 OpenAI 专门研发的推理模型 o1-pro,其表现也远逊于人类。

知名 AI 研究员 François Chollet 参与创立了 ARC Prize 基金会,该基金会正在推动这项评估。他们的目标十分明确,即通过 ARC-AGI-2 来检验 AI 是否真正具备通用智能,而不是仅仅进行数据比对和答案复述。测试一经推出,结果令人感到意外。OpenAI 最新的 GPT-4.5 这样的 AI,Anthropic 的 Claude 3.7 Sonnet 这样的 AI,以及 Google DeepMind 的 Gemini 2.0 Flash 这样的 AI,即便它们处于最前沿的地位,在测试中也表现不佳,得分大致在 1% 左右。主打推理能力的 AI 像 OpenAI 的 o1-pro 以及 DeepSeek 的 R1 ,它们的表现只是稍微好一些,得分处在 1%到 1.3%这个范围之间。

Cresta 的联合创始人 Tim Shi 针对测试结果的分歧指出了关键差异。他说,ARC - AGI - 1 依靠推理模型能够通过暴力搜索来解决。同时,他还指出,ARC - AGI - 2 将会真正考验这些推理模型的极限。

这是 François Chollet 在设计时所着重强调的改进方向。新版测试借助动态规则生成等技术,将暴力计算的可能性空间大幅压缩。一名网友的质疑也证实了测试的严谨性,他说:“我曾记得之前看到推理模型在这个测试中仅获得 4%的分数,可这里列出的 o3 类型模型得分却接近 25%。”对此,Mike Knoop 进行解释,他说:o3 在 v2 上的得分是依据 v1 任务的部分结果来进行估算的。因为完整的验证成本过高,所以我们最新的评估表明,o3(高)的实际准确率大约为 15%。

在 ARC-AGI-2 测试里,有 400 多名人类受试者构成了测试组。这些测试组的平均正确率达到了 60%。由此可见,AI 和人类之间的差距是显而易见的。这不但让业界察觉到当前的 AI 还远远没有达到真正的 AGI,还让许多研究者开始重新思索,我们是否需要用另一种方式来促使 AI 取得进步。

ARC-AGI-2 到底是什么?AI 为什么难以应对?

ARC-AGI-2 是由 ARC Prize Foundation 推出的新一代通用智能评估基准。其核心理念为:让 AI 去解决它未曾见过的问题,而非凭借过去的数据进行推测。测试的主要形式类似拼图,AI 要从由不同颜色方块构成的图案里识别规律,并且要正确地生成目标图形。这个过程对于人类而言并不显得复杂,然而 AI 当下的架构却在处理上存在困难。

新版测试相较于上一代测试 ARC-AGI-1 ,减少了 AI 依赖暴力计算的可能性。它迫使模型必须真正理解问题,而不能仅仅依靠计算力去“蛮算”答案。这正是 François Chollet 在设计 ARC-AGI-2 时所期望改进的地方。他曾指出,许多 AI 在 ARC-AGI-1 上取得相对不错成绩,这很大程度是因其能通过大规模计算资源“穷举”,而非真正具备人类式推理能力。所以,ARC-AGI-2 采用新机制,以确保测试能衡量 AI 是否真理解问题,而非仅靠模式匹配和统计相关性猜答案。

那么,为何 ARC-AGI-2 会对 AI 具备如此大的挑战性呢?关键之处在于以下三个核心难点:其一为符号解释;其二是组合推理;其三是上下文规则应用。

首先,符号解释是 AI 当前的一个主要不足之处。AI 在对符号进行处理时,通常更倾向于进行表面的模式匹配,而非理解符号所蕴含的概念。例如,一个由不同颜色方块构成的图案,在人类眼中或许代表着某种特定的结构或逻辑关系,然而 AI 可能仅仅将其视为一组像素点,缺乏对其中概念的真正认知。

其次,组合推理给 AI 带来了巨大的挑战。人类在解决问题时,会同时运用多个逻辑规则,并且能在不同情形下灵活地进行调整。然而,AI 目前主要还是依靠单一的模式匹配,当面对需要将多个推理步骤结合起来的任务时,常常会束手无策。

首先,上下文规则的应用对于 AI 而言是很头疼的。人类在处理问题时,能够依据不同的上下文来调整思维方式,然而 AI 目前还无法做到这一点。它们通常只能死板地按照预先设定好的模式去操作,缺乏应有的灵活性。这正是 AI 在 ARC-AGI-2 上的表现远远比不上人类的关键所在。

AI 不能只靠解题,还要讲求效率

AI 和人类之间除了在正确率上有差距外,另一个显著区别是效率。人类在解决 ARC-AGI-2 任务时,平均每个任务的成本是 17 美元。OpenAI 早前推出的 o3 进行类似测试时,每个任务的成本为 200 美元。这意味着,即便 AI 能够找到答案,其计算成本依然很高。

AI 在效率上为何如此不堪?其根本原因是当前的 AI 主要依靠海量数据训练以及庞大的计算资源。它们面对新问题时,通常需要借助大量计算去尝试不同的可能性,而不是如人类那般能够快速形成抽象概念,进而直接推导出答案。这种计算方式在某些任务上能够取得较好的结果。然而,在通用智能的测试里,它的低效本质便会显露出来。

这引发了一个重要思考:AI 未来的突破方向不应仅为更强大的算力,而是更高效的推理方式。当下,大多数 AI 研究仍在追求更大的模型、更庞大的数据集以及更强的计算能力,然而,这条路能否真正带来 AGI,已开始被质疑。ARC-AGI-2 的结果显示,单纯地堆叠算力并不能使 AI 变得更“聪慧”。我们需要找寻新的途径来增强 AI 的学习能力以及推理能力。

AGI 仍是远方,AI 该如何进化?

ARC-AGI-2 给 AI 研究带来了新的挑战,同时也促使我们对 AI 的发展方向进行重新审视。目前的 AI 在许多任务上已经展现出了足够的优秀表现,然而,它们依然无法真正像人类那样进行灵活的推理以及高效的计算。当面对全新的问题时,它们的表现依旧远远落后于人类,这表明 AGI 依旧是一个尚未解开的谜团。

不过,当我们把目光聚焦在 AI 在特定测试中的失败情况时,需要保持一份清醒。就像幼儿园小朋友不能解答微积分不能说明其有智力缺陷一样,当前 AI 在 ARC-AGI-2 上的挫败,在某种程度上或许是因为测试标准与 AI 的认知体系存在结构性的错位。人类进化出了对图形符号的直觉理解,这种能力本质上是数百万年在三维空间中生存需求所造就的;而 AI 的“认知器官”是在文本与图像的关联中诞生的,它的优势本来就不在于具象空间的逻辑演绎。

至顶 AI 实验室觉得,如同让鱼类去参加爬树比赛那般,这类测试或许既揭示了评估框架存在的局限性,又忽略了被评估对象所具备的真实潜力。值得我们深入思考的是,当人类一味地用自身智能的镜子去映照 AI 时,是不是正在失去理解另一种智能形态独特价值的机会呢?

AI 研究者若希望真正迈向 AGI,或许得跳出当下的“数据+算力”范式,去寻找更高效且更接近人类思维方式的解决办法。

一方面,ARC-AGI-2 使 AI 研究者看清了当下的局限。接着的问题是,我们该怎样去打破这些限制,让 AI 真正拥有通用智能呢?此问题仍需整个 AI 研究界一同去探索和解答。

相关内容 查看全部