发布信息

OpenAI O3模型在FrontierMath基准测试中准确率提升12倍的背后真相揭秘

作者:软荐小编      2025-01-20 15:00:55     125

不久前,OpenAI在“圣诞节12号更新”中发布了最强推理模型“o3”,无疑让所有人惊叹不已。

尤其是新发布的数学基准FrontierMath,其准确率直接比o1高出12倍。

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_

_o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光

正是因为如此高的难度,o3在FrontierMath上的惊人突破,让大家都感觉其推理能力非同一般。

不过,近日却传出一则消息。 o3之所以能够在短时间内比o1提高12倍的准确率,是因为OpenAI资助了FrontierMath并且可以访问大部分数据集。

但为评论集创建问题和答案的数学家完全一无所知,他们不知道 OpenAI 是项目资助者并且可以访问数据。

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光__o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光

简单来说就是:

对此,Epoch AI 解释道:“我们承认 OpenAI 确实可以访问 FrontierMath 的大部分问题和解决方案,但有一组 OpenAI 没有见过的保留集可以让我们独立验证模型能力。我们有一个口头协议,这些材料不会用于模型训练。

但这个与OpenAI的所谓“口头协议”——呵呵,现在还有谁会相信OpenAI的承诺呢?

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_

根据网上的各种报道,FrontierMath 中的问题应该是不公开的,以防止人工智能公司使用这些数据来训练模型。

但现在看来,“AI公司无法访问这个数据集”的事实实际上是Epoch AI和OpenAI故意制造的假象。

但考虑到 OpenAI 长期以来的欺骗和误导行为——从欺骗自己的董事会到强迫前员工签署秘密的非诽谤协议。

所以这件事有些“出乎意料,但却在情理之中”。

Epoch AI首席数学家回应

消息曝光后,Epoch AI 首席数学家 Elliot Glazer 做出了回应。

他首先承认了自己的错误,并向那些独立做出贡献的数学家道歉,因为他们没有被告知真相。

对于o3惊人的25.2%的准确率,他只是在个人层面表示相信,但并没有真实、可靠、有根据的保证。

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光__o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光

Epoch AI 联合创始人 Tamay Besiroglu 也正式发表博客回应。

对于这一事件,Tamay 的解释是:“我们的合同明确禁止披露资金来源信息以及 OpenAI 可以访问大多数(但不是全部)数据集的事实。”

回想起来,我们本应该更加积极地争取及时披露相关信息以审查设定贡献者的权利。我们对此承担责任,并承诺将来会做得更好。

虽然我们确实向一些数学家通报了实验室的资金支持,但这种沟通并不系统,也没有指定合作者。

这种不一致的沟通方式是我们的疏忽。我们应该从一开始就坚持开放伙伴关系的权利,特别是与制造问题的数学家。

仅仅获得许可披露 OpenAI 参与 o3 发布的情况是不够的。参与项目的数学家有权知道谁可以访问他们的工作。

尽管我们受到合同条款的约束,但我们应该将贡献者的透明度作为与 OpenAI 合作的基本先决条件。

同时,对于FrontierMath,他仍然声称:“OpenAI完全支持我们维持独立的未见过的测试集的决定——这是防止过度拟合和确保准确评估进度的重要保证。”

在沟通中,OpenAI 员工将 FrontierMath 称为“严格保留”的评估集,这一公开声明与我们的理解一致。

此外,我想强调的是,对于每个实验室来说,拥有真正不受训练数据污染的测试集非常重要。

从项目一开始,FrontierMath就被设计定位为评估工具,我们相信目前的安排完全符合这个初衷。

对于未来的合作,我们将努力提高透明度,确保贡献者在项目早期清楚了解资金来源、数据访问权限、使用目的等信息。

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_

综上所述,Epoch AI确实意识到了这起事件的严重性,但其很多回应还停留在“公关说辞”层面,并且全程推责指责,称自己什么也没说因为“合同”的限制。

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_

已有线索,引发热议

一石激起千层浪,纽约大学教授 Gary Marcus 和亚利桑那州立大学计算机教授 Subbarao Kambhampati 等大咖都发表文章谴责 OpenAI 的行为。

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光__o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光

_o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光__o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_

向左或向右滑动即可查看

事实上,参与o3-mini早期测试的研究人员在去年12月首次发布时就发现了这条线索。

例如,Open Vision Engineering创始人Akshay Narisetti发表的研究结果从侧面证实了这一启示:

实验结果表明,该模型擅长解决特定类型问题,但泛化能力尚未完全成熟。它在结构化任务上表现良好,但在需要多维推理能力的问题上仍然存在明显的缺点。

_o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光_o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光

对此,谷歌DeepMind研究员“Ted Shaw”分析称,这种效应可以有两种极端的解释:

1. 糟糕,OpenAI 正在操纵基准测试并将测试问题泄漏到训练数据中! 2. OpenAI仅使用FrontierMath的私有题库来指导新训练数据的总体设计方向和目标,以及设计推理路径。

当然,也有不那么极端的。例如,稍微更改问题内容以创建新的训练数据。从技术角度来看,测试数据中的token并不直接用于训练。

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光__o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光

如今,SOTA车型之间的竞争已经变得非常激烈。如果采用这种机会主义的方式,模型就会在实际的应用场景中暴露出来(缺乏泛化能力)。

顶级AI实验室承担不起这种风险,所以从逻辑上来说,OpenAI更有可能采用第二种方式。

但即便如此,这种行为仍然使得 o1 和 o3 在 FrontierMath 上的表现优于其他未优化的复杂推理领域。

不过这个差距不应该像一些在MMLU上使用第一种方法的“小语言模型”那样——评估分数和实际能力简直是天壤之别。

对于那些坚信OpenAI使用了第一种方法并偷偷混入测试数据的人,我建议:观望一下o3与下一代专注于加强实际应用场景推理能力的顶级模型以及其他评估相比如何。表现如何。

然后我们就会知道o3是否仅在FrontierMath中特别强,而在其他地方则不然。

参考:

相关内容 查看全部