本月,OpenAI 科学家就目前的 LLM 扩展方法是否可以实现 AGI 进行了深入的辩论,认为人工智能在未来至少将与人类相等。目前 LLM 扩展的问题可以通过后训练、强化学习、合成数据、智能体协作等来解决。按照目前的趋势,估计 LLM 明年将获得 IMO 金牌。
随着 AI 不断刷新基准,人们对 AI 的发展也持不同态度。
早在本月 5 日,在“泛化的未知未来”研讨会上,许多知名研究人员就相关话题展开了针锋相对的辩论。
争论的焦点是“今天的 LLM 继续沿着既定的道路发展以实现真正的 AGI 就足够了吗?
辩论分为两个阵营:“火花学派”认为现有技术已经或将有能力解决这些问题;Ember 派系持怀疑态度,认为需要更多的质变。
辩手 Sébastien Bubeck
辩论的中心是 Sébastien Bubeck,他五周前加入 OpenAI,是《通用人工智能的火花》的第一作者。
地址:
在过去的几年里,专注于大型模型中智能出现的 Sébastien Bubek 认为,大型模型中智能的出现足以产生解决现有 NP 问题和黎曼假说的智能水平。
对方辩手 Tom McCoy
另一边是汤姆·麦考伊(Tom McCoy),他目前是耶鲁大学语言学助理教授,也是《自回归的余烬》(Embers of Autoregression)一文的主要作者。
地址:
他在约翰霍普金斯大学获得认知科学博士学位,在普林斯顿大学获得计算机科学博士后奖学金,在那里他得到了 Thomas Griffiths 的指导。
今年,他开始在耶鲁大学担任语言学助理教授,在那里他从事计算语言学、认知科学和人工智能方面的工作。他对人类和机器如何学习和表示语言结构感兴趣。
现有的 LLM 能否基于扩展解决主要的数学问题?
Sébastien 表示,LLM 在过去几年中取得的进步“简直就是奇迹”。
重要的未解决的数学猜想是大多数人类专家认为无法用当前证明技术解决的猜想,例如 P≠NP 或黎曼猜想。
例如,在 MMLU 基准测试中,最佳模型已超过 90% 并完全饱和。在医学诊断领域,GPT-4 已经达到了 90% 的准确率,而人类医生只达到了 75% 的准确率。
与辩论题相关的高中数学竞赛基准很快就会饱和。
谷歌最新的 AI 数学家,凭借微调的 Gemini 系统,可以在 2024 年国际数学奥林匹克竞赛中获得银牌。
基于这一趋势,Sébastien 相信 LLM 明年赢得 IMO 金牌不会有问题。
随着基准变得越来越饱和,Sébastien 表示,衡量 AI 进展的真正标准应该是“AGI 时间”。
Sébastien:延长 AGI 时间就足以解决
GPT-4 目前处于“第二个 AGI”,在许多情况下可以快速响应并给出答案,类似于人类在很短的时间内做出反应的方式。
对于一些编程任务,GPT-4 可能已经达到了“分钟级 AGI”,也就是说,它可以像人类一样花费几分钟编写代码片段。
O1 可能已达到“每小时 AGI”。
在数学领域,GPT-4 仍然卡在 AGI 第二阶段,甚至 o1 也只是一个“分钟级的 AGI”,因为只要人类对复杂的数学问题进行深入思考,它就无法花费那么长的时间。
Sébastien 说,对于重大开放性问题的解决,例如黎曼猜想等重大数学问题的证明,可能需要 AGI 继续深入研究问题并坚持数周。
“如果你有能力'每周 AGI',那么你就拥有了一切,”他说。
Tom:仍然缺乏创造性的飞跃
另一方面,Tom 对 Sébastien 的观点持怀疑态度,认为仅靠现有方法的扩展不足以解决复杂的数学猜想。
Tom McCoy 的中心观点是,证明数学猜想需要某种创造性的飞跃。
“我们很可能错过了某种创造性的飞跃,一种全新的校对方式。这种新的思维方式需要长时间的推理和规划,才能形成符合学术标准的可信和完整的证明。
他说,虽然 LLM 不仅仅是记忆,但它们的泛化能力不足以解决数学猜想,因为解决数学猜想“需要提出一个全新的想法,而不仅仅是现有想法的组合”。
他认为,LLM 缺乏长时间推理和计划的能力,它们的能力在很大程度上取决于训练数据的性质。这是他们的论文《Embers of Autoregression》的要点。
而且,至关重要的是,到目前为止,扩展并没有从根本上解决这个问题。
“我们需要的是根本性的改变,因为对于新的证明方法,训练数据中的频率为零。因此,无论他们继续扩大多少规模,他们都不会让 LLM 使用这些新的证明方法,也不可能继续从这些新方法中学习。
Tom 还表示,由于 LLM 错觉的存在,拥有数十页甚至数百页可信的数学证明是不现实的。
“问题在于,当需要写的证明很长的时候,就算我们能大幅度降低幻觉的概率,只要概率不为零,当证明足够长的时候,证明出错的可能性几乎是不可避免的。”只要证明中有缺陷,证明就是无效的。
因此,Tom 认为,为了提供可信的严格证明,LLM 需要质的变化,而不仅仅是扩大规模的量化优势。
总的来说,Tom 认为有两个关键因素阻止当前的 LLM 方法解决主要的数学猜想。
首先是需要进行创造性的飞跃,并产生全新性质的想法。第二个是在数十页或数百页中继续进行长期推理和规划的能力。
组合和扩展推理 Sébastien:“组合”足够强大
为了反驳 Tom 的说法,即模型的泛化只是两种不同想法的组合,Sébastien 问观众:“你认为你所做的不仅仅是结合现有的想法吗?
根据 Sébastien 的说法,将事物彼此结合的过程具有一定的随机性,类似于“在心灵空间中随机徘徊”。不断结合现有事物可以产生突破性的结果。
“至少对我来说,当我回顾我所做的工作时,我认为大部分都是在做投资组合的工作,并为其添加一点随机性。实际上,我写了很多论文,借鉴了其他人的作品,并意识到他们所做的只是结合了他们已经拥有的东西。
也可以在多代理环境中纠正错误
Tom 的第二个中心论点是“随着推理越来越长,错误是不可避免的”。
在这方面,Sébastien 认为问题被夸大了。即使是由知名研究人员撰写的论文,如果它们的长度超过 50 页并且仍然保持完全正确,则非常非常罕见。
但是,这并不意味着论文的结果就是错误的,错误可以被别人纠正。
“我可以想象一个未来,有一群 AI 一起工作。这将是一个多智能体环境,一些 AI 会阅读其他 AI 撰写的论文,然后指出错误并得到纠正,依此类推。这绝对是一个可能的未来。
后培训能否解决现有问题
Sébastien 对文章 “Embers of Autoregression” 中提到的问题的回答是,当训练数据没有得到充分表示时,会有更多的错误。
“当然,这绝对是一个真实的陈述,但这只是对底层模型的真实陈述。”
然而,Sébastien 认为,这并不意味着模型本身具有天生的能力,只是训练数据中的某些任务没有得到充分表示。因此,可以通过后期训练来提取相应的能力。
他告诉 Tom,“我认为你在 Embers of Autoregression 论文中提到的只是关于基本模型。如果你对它进行后期训练,一些结论可能会改变。
汤姆回答说:训练后表现不佳
汤姆说,他的论点是基于基础模型。
他认为,这些预训练的效果在后训练中仍然存在:“我们分析的所有模型都是后训练的,但它们仍然显示出这种自回归的痕迹。
O1 的性能确实比以前的模型好得多,但在处理字母顺序方面仍然比处理反向字母顺序(以及其他类似情况)的性能要好。
“即使是这些后训练方法也不足以改变模型的基本特性,而模型是基于自回归的基本特征。”
因此猜测“要彻底消除这些问题,需要从预训练阶段就明确、直接地训练推理,因为在目前的情况下,模型中的推理实际上是最后拼凑起来的。
这是一个非常重要的步骤,在训练浮点运算等方面,比其他方法要少很多。
“因此,为了实现所需的稳健性,这需要某种质的改变。”
是的,另一个问题是,除了能够结合现有的想法外,找出哪些想法需要结合也很重要。
据他所知,大多数令人印象深刻的想法组合都是人类告诉 AI 模型的内容:“这里有两件事,我们希望你把它们放在一起。
但他认为,“知道哪些事物的组合会产生新的证明技术,是一个更难的问题。
此外,他完全同意“著名证明的一些想法确实是通过以令人印象深刻的方式将现有想法组合在一起而产生的。
从新奇或创造力的角度来看,有些方法即使不能解决问题也是成功的,他说:“像费马定理这样的问题受到赞扬,因为它们非常有创意,并以非常新颖的方式使用旧技术。
Sébastien:人机交互很重要
这一次,Sébastien 表示他会跑题一点,那就是“AI 将与所有人合作,直到它自己解决问题。
他分享了他与 AI 合作进行研究的经验。
“凸函数的梯度流能持续多长时间?”
当时,该期在 Dropbox 中仍处于草稿阶段,尚未发布。因此,可以肯定的是,这不包含在训练数据中。
他向 O1 模型提出了这个技术问题,但 O1 没想到 O1 会将问题与所谓的自收缩曲线联系起来。
但这种关联并不直观,它解释了为什么在两者之间建立联系是个好主意。还提供了相关文献。
Sébastien 本人花了三天时间才找到这种联系。
换句话说,即使是现在的基础模型,也足以让他的研究速度加快三天。
他说,明年会有更多的科学家经历类似的经历。
“这与医疗诊断领域发生的事情相同。每个领域都有相同的故事。AI 至少将与我们几乎不相上下。
Tom 随后同意 AI 可以与人类合作,但这并不一定意味着它可以独立于人类,独立地为数学做出创新贡献。
“为了解决一些未解决的数学问题,仅仅像人类一样好是不够的,事实上,它必须在某种程度上比人类更好,或者至少比我们目前提到的任何人类(比如高斯)更好,”汤姆回答道。
Tom:推理时间扩展正面临指数级增长
Tom 提出了一个问题,“假设时间和数据是无限的,扩展最终会达到它的目标吗?
如果我们把问题简化到实践层面,有没有数字 X,以及 X 年后是否能藉延伸来实现目标。
首先,他认为,人们担心互联网上的现有数据量是否足以支持这种持续增长。例如,继续现有级别的数据扩展。
扩展在测试时变得如此令人兴奋的原因之一是,它提供了一种不同的扩展方式,这种方式不太依赖于预训练数据的规模。
但即使对于测试时的扩展或训练周期数,也存在一个问题:许多观察到的扩展定律表明,性能改进会随着扩展而呈对数增长。
这意味着我们需要更多的指数数据或推理时间才能继续看到性能提升。
Tom 担心“在某些时候,这种指数级增长可能会变得不可行”。
与此同时,Tom 认为 AI 系统必须以新的方式稳健地使用熟悉的想法。
“我们还有证据表明,当 AI 系统以熟悉的方式使用某些概念时,它们的性能要比以新颖的方式使用时要好得多。有趣的是,这与人类的状况有点相似。
例如,给 GPT-4 一个数字并将其乘以 9/5 加 32 大约是 11% 的准确率。但是,如果 GPT-4 也被告知“将数字从华氏度转换为摄氏度”,则其准确率将提高到 62%。相同的计算,只需认识到这是一个熟悉的场景,就足以显著提高性能。
Tom 总结道:总体上很乐观,但对 Scaling 不起作用持怀疑态度
汤姆以一个笑话结束。
笑话是这样的:
一群朋友在公园里散步时,遇到了一个男人和他的宠物狗在下棋。他们走上前说:“哇~,你的狗会下棋!太神奇了!“那个人回答说:”哦,没什么,通常是它输了。
故事的笑话是,这个男人已经习惯了他的狗下棋,但对于一只狗来说,能够下棋已经很了不起了,即使它不擅长下棋。
Tom 对大型语言模型的批评是一样的:“大型语言模型可以做很多事情,即使它在很多事情上都不完美,这真是令人惊讶。因此,大型语言模型确实很强大,但重要的是不要夸大它们的能力。
“大型语言模型的这些功能来自训练数据,”他说。
通过反复观察,他非常清楚地看到,大型语言模型的能力与训练数据的频率密切相关。
这样,大型语言模型广泛而令人印象深刻的功能可能更多地反映了训练数据的多样性,而不是深度泛化能力。
这意味着,如果我们希望大型语言模型真正不同,我们需要与当前范式不同。
使用当前范例进行扩展是不够的,因为所需的功能不包含在训练分发中。
现在,有可能有一个学习者可以做超出其数据范围的事情,因为人类可以,因为人类过去已经解决了数学中的多个猜想。
但到目前为止,没有证据表明大型语言模型可以达到这种级别的创造力和深度。
“总的来说,我乐观地认为人工智能可以帮助我们解决这些未解决的问题,但我怀疑我们能否仅仅通过扩大规模来做到这一点,”他说。
他认为,以下关键点需要改进:
首先是提高远程推理和计划技能,以及更好的长期记忆。
因为给大型语言模型更多的内存可能还不够,所以还需要弄清楚如何让它们有效地使用增强的内存,以确保在非常长的记忆上下文中可以识别重要信息。
其次,需要找到解决幻觉和可靠性问题的方法。一种潜在的技术是更顺利地与符号组件(如证明验证器)集成。
另一个是他前面提到的思路,可能从一开始就优化系统,使其更适合运营思路而不是语言。
大型语言模型首先是一种语言模型,它们的主要初始预训练阶段基于语言预测。
虽然最近的方法确实包括额外的微调和后期训练阶段,但基本模型本质上仍然是基于语言的。
因此,这导致了这样一种效果,即大型语言模型处理概念的能力必须通过语言间接出现。
他认为,这很可能解释了为什么这么多的 LLM 推理仍然相对脆弱或容易受到概率的影响。
为了解决这个问题,让模型直接优化推理能力是很重要的,而不是从语言开始。
最后一点是,如何产生创造力真的非常令人困惑。
他认为,没有人确切地知道创造力需要什么。
但有几个因素可能很重要,那就是抽象和类比的能力,因为抽象和类比将以新的方式看待熟悉的想法,以前所未有的方式建立联系。
这说起来容易做起来难,但他坚信,点燃 AGI 的火花需要充满人类智慧的持续创新。
Sébastien 总结道:创造力就是模式识别
Sébastien 说:“当我们进入或刚刚进入大学时,我们会接触到很多东西,我们的知识也会扩展。然后当你进入研究生院时,你开始深入学习,你会花很长时间思考问题。在研究生院的第一年,你可能会选择一篇论文,然后花一个月的时间来完成它。对于
在 Internet 数据上进行预训练的大型语言模型也是如此。
他们接受的培训是以特定的方式深入思考特定的问题领域。
根据 Sébastien 的说法,第二个关键要点是:“一切都在出现,而不是硬编码。
无需向 AI 下达 “请检查答案”、“请回溯”、“请执行 XXX” 等指令。
您不必教模型任何技巧。
通过强化学习,LLM 可以学习所有这些。
Sébastien 对 GPT-4 的出现感到惊讶:“一旦事情开始以这种方式出现,你怎么能确切地说出这种能力的极限在哪里?这真的很难说。但这非常重要。
问题是 LLM 现在卡在这里,即使有 o1。
一种方法是合成数据。Sébastien 一直在使用 Microsoft 团队开发的 Phi 系列模型来做到这一点。
Sébastien 的最后一点是关于真正的创造力。
他说,好的时刻是“审视你自己的工作和那些人的工作的时刻”,而真正的创造性时刻是“识别模式的时刻”。
他再次强调,“识别模式有点像组合事物,但它可以在不同的尺度上组合”。
“这不仅仅是将两个想法放在一起,”他说。就像你突然发现很多事物以一种非常新颖的方式彼此相关。
这就是一个好的定义。
一个好的定义能够包含无限数量的可能事物并将它们浓缩成一个简洁的句子。
“所以构建这些好的定义的过程就是识别模式,都是抽象的。现在的关键是,这似乎是一项可以传授的技能。你可以举一些例子。您可以设计许多示例来说明如何提出一个好的定义。一旦你将这个抽象注入到模型中,提出一个好的定义,然后将其与我们所说的其他内容结合起来,我就看不到这些模型能做什么的任何限制。
引用:
本文来自微信公众号“新致远”,作者:新致远,36 氪经授权发布。