发布信息

OpenAI连更两弹,o1模型性能大幅提升,数学与代码能力暴涨

作者:软荐小编      2024-12-08 21:02:16     131

本周,OpenAI连续两次更新,将o1模型推向全网最高点。

就连奥特曼本人也兴奋地宣布,“我已经等不及下周《Day 3》的上映了,感觉周一已经很遥远了。”

第一次更新的第一天,o1的全健康版就发布了。与之前的o1-preview相比,其数学和编码能力大幅提升,分别猛增27%。 o1 Pro版本的数学性能飙升了36%。

作为 o1 的早期访问者,菲尔兹奖获得者陶哲轩在接受 OpenAI 研究高级副总裁 Mark Chen 的采访时讨论了 o1 推理的数学未来。

OpenAI 科学政策和合作伙伴关系主管 James Donovan 主持了本次采访

对话首先进行了1小时的讨论,随后进行了30分钟的问答环节。不用说,它非常有价值。

9月份o1预览版发布后,《大西洋月刊》撰文称,陶哲轩描述了由人工智能驱动的前所未有的“工业级数学”。

至少在短期内,人工智能不再是一个独立的创造性合作者,而更像是数学家假设和方法的润滑剂。

简而言之,AI只是一个辅助工具。

这种数学协作的新模式可以揭开知识的神秘面纱,保持人类创造力的核心地位。

不知道这次天才数学家对o1有何看法?

一个新的发现时代正式开始

陶哲轩表示,我认为这可能会开启一个新的发现时代。

目前,数学家一次只能专注于一个问题,花费数月时间解决一个问题,然后再继续解决下一个问题。

但有了这些工具,我们就有可能同时解决数百甚至数千个问题,进行完全不同类型的数学研究。一想到这个可能,他就异常兴奋。

Mark Chen肯定地说,“这很酷。是的,在过去的一年里,我们的主要关注点之一是推理能力。自从GPT-4发布以来,团队已经稍微转移了研究重点。”

GPT-4学习了很多世界知识,是一个非常智能的模型。但不可否认的是,它在很多方面都很愚蠢,在简单的谜题上会犯错误,而且常常过于依赖先验知识。

例如,如果它对某个谜题应该如何发展有一些先验知识,那么它往往会陷入相同的模式匹配错误。

正是这些问题向OpenAI团队指出了该模型在深度推理能力上的缺陷。

因此,我们看到了O系列车型的诞生。他们更像是系统 2 的慢思考者,而不是系统 1 的快速思考者。模型在给出响应之前需要花一些时间反思问题。

有传言说 OpenAI 总部有一个 o1 实例,已经运行/思考了 6 个月......

AI解耦数学任务,开辟新的协作模式

主持人James Donovan接着问道:“您描述的‘工业级数学’是一个什么样的未来,包括不同的数学合作方式?您能详细描述一下吗?”

陶哲轩说,数学一直被认为是一项非常困难的活动。

原因之一是它依赖一个人,或者可能是一小部分人,执行许多不同的任务来实现复杂的目标。

如果你想在数学上取得进步,你必须首先提出一个好问题,然后找到解决它的工具。

之后,你必须研究各种文献,尝试一些论点,进行计算,检查算法。

如果结果是正确的,你还必须以可解释的方式写下来等等,汇集不同的技能。

在其他行业,我们有分工,比如拍电影,从制作到剪辑,再到表演和融资,都是由不同的人负责。

陶哲轩表示,在数学领域,直到最近我们才找到一种解耦这些任务的方法。

原则。可以实现这样的协作:一个人负责想法,一个人或人工智能负责计算,另一个工具负责写论文等等。这样就不需要一个人在所有事情上都是专家。

我认为很多人害怕做数学,因为他们看到了成为一名优秀数学家所需要做的所有事情的详细清单。这确实令人望而生畏。

然而,人工智能工具可以解耦一些重复性任务,并使它们更加模块化。

有些任务由人工智能完成,有些任务由人类完成,有些任务可能需要预先协助,有时甚至可以由普通大众完成。

陈马克好奇地问,在不考虑人工智能的情况下,迄今为止最大的数学合作项目,可以同时合作的人数上限是多少?

陶哲轩表示,实际操作中,限制在5-6人左右。超过这个阈值,事情就变得非常困难,因为你必须检查彼此的工作,并考虑诸如让每个人都在同一个房间里之类的事情。

确实有少数项目有很多作者,比如证明形式化项目,大约有20-30位作者,这是数学领域为数不多的项目之一。

目前,众包任务现有的方法之一是将其放在GitHub上,使用Lean等正式语言,并且所有贡献都可以得到验证。

主持人詹姆斯·多诺万问道:“当你解释这一点时,听起来你的默认假设是人类仍然会分配任务,他们仍然对整个过程有足够的了解来决定谁在哪里做什么。”您认为数学家的角色会发生分化,新的专业方向会出现吗?

陶哲轩表示,我认为软件工程可能是未来数学发展的模板。

在过去,可能会有一位英雄程序员完成了这一切,就像今天的数学家一样。但现在,我们有项目经理、程序员、质量保证团队等等。我们可以想象现在就这样做。

他说我目前参与的几个合作项目既包括理论数学部分,也包括形式证明部分。人们还在运行各种代码算法等等。而且,正如我所预料的,专业化已经开始出现。

有些人可能不懂数学,但他们非常擅长将定理形式化,对他们来说这就像解谜题一样。

还有人擅长管理GitHub,做好项目管理,保证所有后端工作顺利进行。

还有人负责数据可视化和其他任务。我们大家都在协调、共同努力。到目前为止,这项工作主要由人类完成,使用更传统的人工智能工具(例如改进器),这些工具通常运行 Python 代码或类似的东西。

“但我认为,一旦人工智能足够强大,它自然会融入这种范式。”

陈马克也说,对我来说也是一样。在很多方面,我几乎将人工智能视为同事。有些事情我不擅长,我可以让AI来做。

虽然我不是数学家,但就人工智能帮助解决数学问题的优势而言,第一可能就是模式识别。机器在这方面非常擅长,特别是当需要处理大量数据或信息时。从识别模式开始,就可以形成推测。我认为AI在这方面可能有独特的优势。

关于制定证明策略,我认为当今人类可能仍然对采取正确步骤有更好的直觉。但也许人类在某个特定步骤上可能存在盲点。

另外,在验证方面,模型可以验证某些你认为正确但想再次确认的步骤。

还有反例的产生。例如,当您想要考虑许多可能使定理无效的情况时,模型可能会比您更有效地穷尽这些可能性。

主持人又问,可以这么说,你们都认为改进器是做数学研究和使用LLM或类似技术之间必要的中间层吗?

陶哲轩表示,基本是这样。

数学证明的特点是,如果一个证明有100步,其中一步出错,整个证明可能会彻底崩溃。至于人工智能,我们知道它会犯各种各样的错误。在某些类型的数学科学中,一定的错误率是可以接受的。

正如Mark所说,例如,当涉及到模式识别和形成猜测时,即使AI只有50%的准确率,也是可以接受的,只要你有其他方法来验证它。

尤其是当它试图输出参数时,强制 AI 使用像 Lean 这样的正式语言输出是一种自然的协作方式。如果它能编译,那就太好了。如果没有,它将返回错误消息。

目前,人们已经实现了这一点,并且可以使用这种迭代技术在本科水平上证明一些简短的证明。当然,你不能直接问一个高级数学问题并期望它输出一个巨大的证明。

接下来,陶哲轩提到,虽然Alphaproof可以在3天的计算时间内完成,但这种方法无法扩展。

对于正错误率可以接受的简单问题,您不需要正式的证明助手。但对于任何错误可能传播的复杂问题,形式证明助手基本上是不可或缺的。

人类的数学美学,AI难以复制

数学也有它自己的美学。

陶哲轩表示,就像关注抽象概念一样,我认为人类对数学有一种特殊的美感,这与数学的核心紧密相连。

由于这种美感是由人类来判断的,因此人工智能模型在定义问题和品味方面可能更难模仿。

不过,陶哲轩也认为,人工智能在数学领域的应用将带来“别样的美”。计算机生成的证明将不同于人类生成的证明,并且有自己的优雅。

数学与人工智能携手共创未来

接下来,James Donovan连续问了三个问题:“您对年轻数学家有什么建议吗?他们应该关注哪里?他们应该解决什么样的问题?”

陶哲轩认为,年轻数学家必须保持灵活性,因为数学已经逐渐成为一门越来越考验协作的技术学科。

50年前,数学家可以独立解决某个子问题,但现在几乎不可能。然而,这对数学来说却是一个健康的发展。通过使用人工智能,数学家可以更广泛地合作,互相帮助,优势互补。所有知识。

但需要注意的是,这些工具也有局限性,不能盲目。你必须用自己作为人的聪明才智来驯服和监督AI,而不是把AI当作一根魔杖。

James Donovan 表示,OpenAI 也不鼓励人们盲目信任 AI。如果没有足够的专业知识,他们就会陷入另一个技术陷阱。

为了更好地利用AI工具,Mark Chen建议在校学生认真学习各自领域的技术知识,然后参与一些人工智能相关的研究。至少要了解神经网络的基础知识,比如如何训练模型、底层运行机制。和限制。

人们越怀疑人工智能的能力,他们与人工智能工具的协作就会越有效。

1%最难的数学题,AI尚未取得突破

关于“Google DeepMind 荣获 IMO 数学奥林匹克银牌”,James Donovan 问陶哲轩是否对这一进展感到惊讶。

陶哲轩表示,确实超出了预期。近几年来,相关工作也不少。例如,DeepMind 在 IMO 数据中综合了很多证明过程,但大多数都是错误的,所以普遍认为这条路不可行,但现在一下子实现了。

还有一个问题是,目前的AI还处于数据阶段,并没有想象中那么有用。它只能解决2000万个小数学问题。理想的人工智能系统能够解决一个大问题。

目前,数学项目中99%的问题都可以通过传统的暴力搜索来解决,但仍有1%的问题相当困难,需要人工干预。正是这 1% 的问题最具挑战性并直接影响 AI 技术。从本质上来说,目前的突破并不是特别有意义。

James Donovan 问道:目前的工作主要是教模型以特定的方式进行推理。这个想法应该是多种推理的一种模型吗?或者多个模型来处理多种类型的推理?再者,AI需要怎样的推理来解开这些棘手的小问题呢?

Mark Chen的想法是追求简单,不需要单独设计多个模型。简单性也是开发人工智能产品的关键原则。但在连接复杂系统时,人类可以构建结构,以便人工智能模型能够以某种方式进行合作。

添加数据,例如 10,000 个相似样本,可以让模型学习推理模式。我们将来可能会探讨这方面的问题。

陶哲轩认为,人工智能解决问题和人类是非常互补的。人工智能主要以数据驱动的方式解决问题。对于某些任务来说,人工智能实际上比人类更重要,但人类需要做的是重新校准自己解决某些任务的能力。这些问题的难度可能只是因为之前没有尝试使用数据驱动的方法来解决这些经典问题。

在数学中,有些问题确实很难,甚至无法确定,并且没有大量可用的数据可以借鉴,甚至可以继续证明。这些问题无法被证明,而这些问题正是人类擅长而人工智能不擅长的。

如果仅以智能作为唯一的评价标准,可能还不够,所以AI与人类的互补或许才是最终的解决方案。

陈马克开玩笑说,我希望我们的研究计划能够成功,构建一个非常高效的数据推理机,然后证明你是错的。

陶哲轩说,我也希望被证明是错的!

人工智能在数学定理发现和检索方面的潜力

在进行数学研究时,最令人沮丧的事情之一就是别人占了上风而你却不知道。

例如,当试图证明一个小引理时,即使你心里知道一定有100个人证明了它,也许在代数、几何、群代数、群论、Pds等领域,也很难找到答案。

关于“在不久的将来人们是否能够轻松检索某些数学定理?”的问题陶哲轩表示,将数学计算机化并支持检索是一个很棒的想法。

OpenAI的o1模型实际上已经开始做一点事情了。例如,对于某个定理,你可能知道它是什么,但你记不起名字,因此你无法使用搜索引擎或从大量论文中检索某个定理。这些都是非常关键的使用场景。

人工智能可解释性的理论滞后

AI经常会出现幻觉问题,生成的答案可能不正确,因此人工检查至关重要。

例如,ChatGPT 说周六下午两点有一场歌剧。去了之后发现没有。这个问题造成的损失相对较小且可验证,但在科学研究领域,比如人工智能辅助药物开发,用户也不知道。真正的答案无法得到验证,并且会产生长期的后果。

对于这个问题,Mark Chen鼓励用户在使用大型模型时结合搜索结果。该模型将引用特定网站或特定来源来反映真实情况。未来模型会更加准确,用户可以自己去网站查看结论。

需要注意的是,o1尚不具备搜索功能。

反馈数学

从历史上看,总是先有数学或数学理论,然后才是其他理论应用,例如物理和化学。

随着物理学等人工智能的进步,一些人开始使用机器学习来模拟计算解决 Pds 和传统方法无法解决的问题。数学是否也从其他领域获得了新的理论思想?或者只是生成更多数据?

陶哲轩回应说,数学是一条非常宽阔的双向路。例如,物理学家可能发现了数学原理但没有解释它,然后需要回去发展数学理论。

例如,狄拉克发明了狄拉克δ函数。按照正统数学,它不是一个函数,所以我们需要扩展函数的概念,所以理论发现总是双向的。

可以想象,人工智能发现一些无法解释的新现象,可能会产生一种非常实用的、科学驱动的应用,也许是一种经验性的发现,进而促使科学研究人员使用数学工具来寻找理论解释。

演讲者介绍

陶哲轩是加州大学洛杉矶分校的数学教授。他的研究领域包括调和分析、偏微分方程、组合数学和数论。

他曾获得多项奖项,包括 2006 年菲尔兹奖。

Mark Chen 是 OpenAI 的研究高级副总裁,负责监督先进的人工智能项目并推动语言模型、强化学习、多模态模型和人工智能对齐方面的创新。

James Donovan 领导 GA 的科学政策和合作伙伴关系,重点关注如何最好地利用模型来加速科学研究和商业化。

在加入 OpenAI 之前,他是 Convergent Research 的创始人、风险投资家和合伙人,在那里他帮助创办了多个登月科学组织,包括 Lean Fro(复杂数学的自动定理证明器)。 。

参考:

相关内容 查看全部