GPT-4.5出世一个多月,鲜有人知其背后研发故事。
今天凌晨,奥特曼开启了播客对谈,并且有三位核心研究员在线参与。这次对谈首次揭开了 GPT-4.5 从愿景到现实的史诗级突破。
OpenAI 团队在两年前定下了一个大胆的目标,即要打造一款比 GPT-4 还要聪明 10 倍的模型。
这对协作是一种极限挑战。
从左到右依次有奥特曼、Alex Paino、Amin Tootoonchian 以及 Daniel Selsam。
如今,OpenAI 在 2 月底完成了交付。GPT-4.5 的情商在所有模型中是最强的。它再次拓展了无监督学习的边界。
这款“超级模型”创造智能奇迹的方式究竟是怎样的,这些全部都被浓缩在了这 45 分钟的圆桌对谈里。 这款“超级模型”是如何创造出智能奇迹的,这些都在这 45 分钟的圆桌对谈中得以浓缩。 这款“超级模型”究竟是以何种方式创造出智能奇迹的,这些都被包含在了这 45 分钟的圆桌对谈之中。
一些精彩亮点:
GPT-4.5聪明10倍
奥特曼开始时说,一般来讲他们召开这种会议主要是为了发布新的产品。然而,这次他们打算改变一下方式,想要聊一聊 GPT - 4.5 开发背后的那些故事。
GPT-4.5 推出之后,用户对其展现出了极大的兴趣,这种兴趣的程度远远超过了研发团队之前的预期。
他们首先从「一个巨型模型到底需要什么?」这个话题说起。
有很多人,有很多时间,还有很多计算资源。主要负责预训练数据的 Alex 回答道。
Alex 称,在准备阶段他们就耗费了许多心思。而对于正式的训练,他认为其本身就是一个极为庞大的工程。
在实际训练过程中,研究团队时常面临这样的选择:要么推迟发布,等待更多问题得以解决;要么提前上线,在运行过程中边解决问题。
这是个平衡,不能让整个训练过程拖得太久。
他们认为,在效率更高的算法方面,他们只是略有了解;在如何更好地利用现有数据方面,他们也只是略知一二。他们对此持谦虚的态度。
不久前,我们曾受算力所限。然而从 GPT - 4.5 起,我们更多地处于受数据所限的环境之中。
他们称这是一个具有颠覆性的进展,并且强调整个世界尚未对其有充分的认识。
两年前开始开发 GPT-4.5 ,他们的目标是其要比 GPT-4 聪明 10 倍。
现在,他们认为自己达成了这个目标。也就是说,在投入的有效算力方面,GPT-4.5 实现了比 GPT-4 聪明 10 倍的效果。
预训练的两个难题
不过,实际的训练时间还是比预想的要长不少。
这里面主要有两个问题。
一个是 GPU 的数量从 1 万个增加到了 10 万个,这样一来,问题会变得多很多。
一些事先没预料到的小概率问题,在大规模计算时会导致大混乱。
算力基础设施最容易出问题。他们的数据量非常大。有些问题连硬件制造商都未曾遇见。
网络架构会出问题,单个加速器也会出问题。我们的工作就是要尽量让这些变量的波动降低到最低程度。
另一个问题是探索前沿科技这件事本身就很难。
OpenAI在训练 GPT - 4.5 时,投入了众多人的努力,花费了大量的时间,几乎是全身心投入。
但如果他们现在重新训练一个达到 GPT-4 水平的模型,大概仅需 5 个人到 10 个人就能够完成。
Dan 专注于数据效率和算法,他说:“我认为做任何新的东西都很困难。然而,当你知晓别人已经成功做成过某件事时,其难度就会大幅度降低。”
最难的部分在于下定决心去做一件事。当知晓某件事是可行的时候,就仿佛开启了某种特殊的力量,瞬间让事情变得容易许多。
Dan接着表示,若要将训练规模扩大 10 倍乃至 100 倍,数据会成为瓶颈。在这种情况下,就需要一些算法上的创新,以使模型能凭借更多的算力从相同的数据中学习到更多的东西。
torch.sum bug趣事
研究团队在 GPT-4.5 的训练事宜里,找到了一些特别有意思的事。
比如,在训练过程中不断地优化机器学习算法,做出一些调整。
团队解决了一些关键问题,之后他们看到了模型性能有了大幅提升。
那一刻,整个团队的能量发生了变化。大家都极为兴奋,动力十分充足,都想要在最后阶段全力冲刺并完成任务。
「那一刻真的很震撼。这对团队士气的提升,真的特别美妙。」
现场有一位是 OpenAI 的首席系统架构师 Amin Chian,他分享了一件“torch.sum bug”的趣事。
训练过程中遇到 bug 是很常见的。一般来说,需要去查找究竟是硬件出现了故障,还是数据遭到了损坏,亦或是与机器学习相关的 Bug。
但在训练GPT-4.5时,有一次好几个问题一直都没有解决。
大家进行了讨论,研究这些问题究竟是由不同的 Bug 所引起的,还是由同一个 Bug 导致的,大家没有其他办法。
他们围绕着桌子进行投票。结果怎样呢?之后被确定的那个 Bug 在当时获得的票数是最少的。
这只是一个简单的“torch.sum”方面的 Bug,它源自上游的 PyTorch 库,大家都觉得这实在是太令人难以置信了。
所有的问题都被这一行代码给解决了,真的特别有趣。
他们为了庆祝,把 Slack 频道从“多 Bug 理论”进行了更改,改成了“单 Bug 理论”,那时候的场面十分热闹。
这个 Bug 触发的频率较为低下,或许每 100 步才会出现一次问题,也有可能每 1000 步才出现一次问题,所以特别容易被忽视。
但他们有条纪律,在训练过程中不能容忍这种问题出现。
整个过程就是一个坚持不放弃的故事。
压缩即智能
几十年来,深度学习的核心重点在于提升算力的效率。并且,每一次较为微小的改进,都能够产生明显的叠加性效果。
世界上不同地方的人发现了一个能提升 10%效率的技巧,另一个人提出了提升 20%的优化。这些看似很微小的进步,若累积起来,就能够彻底改变模型的表现。
过去,由于算力受到限制,所以在数据效率方面的研究显得不是很划算。然而现在,数据效率每一次取得突破,都有可能成为 AI 发展的关键节点。
因此,现在就去预测AI会有瓶颈,有点不明智。
他们认为,更好的预训练以及无监督学习能够全面提升模型的智能。这种提升有助于模型更好地进行泛化。并且,这一点与现在模型的推理能力是相互补充的。
预训练的本质是对数据进行压缩。数据被压缩意味着能够发现不同事物之间的联系、类比以及抽象。推理是针对某个具体的问题,它需要一种具备谨慎思考的技巧。
这种谨慎思考能够解锁许多不同领域的问题。然而,在预训练跨领域压缩数据的过程中,所学到的是一种更为抽象的东西。
为什么无监督学习会有效?研究员们的答案是「压缩」。
可以说,所谓的“所罗门诺夫归纳”(Solomonov induction)就是理想的智能形态。
简单而言,模型更偏向于简洁的解释。在这同时,它严格依照贝叶斯原理,将所有的可能性都予以记住,并且随时依据新的信息来对自己的回答进行更新。
他们现在所进行的预训练,从某种角度来说也就是理解预训练,其本质就是在进行这种“压缩”。
尝试去找到一个程序,这个程序要尽可能短,同时用它来解释所有的数据,以此来当作对理想智能的一种近似。
Scaling Law是宇宙法则
奥特曼在播客的最后表示,训练 GPT - 4.5 所经历的整个过程,耗费了大量的人力、耗费了大量的时间、耗费了大量的金钱,这个过程其实可以被看作是一场实验。
一场验证Scaling Law是不是还成立的实验。
他们发现,Scaling Law 是有效的。并且,Scaling Law 可能会持续很长时间。
奥特曼称他对待 Scaling Law 的态度如同对待量子力学一般,并且他还不理解为何 Scaling Law 会成为一种宇宙的规律。
Dan 对此试着进行解释,他说模型数据压缩得越多,其智能就越高,并且这背后有着很强的哲学依据。
他比较喜欢的一个解释为,世界上数据的关键概念具有稀疏性,且符合幂律分布。
例如,那个处于第 100 位重要的概念,或许在每 100 个文档当中仅仅会出现一次。
也就是说数据有很强的「长尾效应」。
所以现实情况是,若你想要抓到“尾巴”中下一个重要的事物,或许需要将算力提升十倍,同时将数据量也提升十倍。
而这个尾巴还很长,可以一直挖下去。
参考资料:
点个“爱心”,再走吧