从AlphaGo、AlphaZero、MuZero到AlphaCode、AlphaTensor,以及最近的Gemini和AlphaProof,Julian Schrittwieser的工作成果似乎比他的名字更广为人知。
如今,AI界再次引发关注的一则大佬转会消息。
在谷歌工作十年后,谷歌 DeepMind Alpha 系列著名核心作者 Julian Schrittwieser 宣布加入 Anthropic。
我很高兴地宣布,我将从本周开始加入 Anthropic!克劳德是我发现自己一直在使用的第一个法学硕士。最近,我对文物和计算机的使用以及克劳德不断提高的技能感到震惊。
我非常幸运能够参与 Google DeepMind 在过去 10 年的奇妙旅程,在那里我参与了许多我从未梦想过的激动人心的项目:从 AlphaGo 到 AlphaZero 和 MuZero 的传奇;还有很多应用研究,例如 AlphaCode 和 AlphaTensor,以及最近的 Gemini 和 AlphaProof。我相信那里的团队也会继续创造令人惊叹的东西,我迫不及待地想知道!
Julian Schrittwieser的跳槽可以说是最近该领域最令人震惊的消息,因为Julian Schrittwieser在DeepMind内部的地位非同一般。更令人好奇的是,Anthropic是如何招募到如此顶尖的人才的:
无论流程如何,这一定是Anthropic最“物有所值”的招聘:
DeepMind诞生以来的这些年里,“Alpha系列成果”一直是团队最闪亮的前沿成果。而Julian Schrittwieser是这些伟大成就中不可忽视的贡献者。
2016年,DeepMind开发的AlphaGo以4:1击败世界顶级围棋选手李世石,成为全球人工智能里程碑。 Julian Schrittwieser 与他人共同撰写了关于 AlphaGo 的第一篇具有里程碑意义的论文。
2017年,AlphaGo与柯洁的比赛结束后,DeepMind宣布AlphaGo退役。自学成才的 AlphaGo Zero 以 100:0 击败了早期竞技版 AlphaGo。 Julian Schrittwieser是AlphaGo Zero论文的第二作者,也是master的负责人。搜索算法、训练框架以及对新硬件的支持。
AlphaGo Zero 后来被扩展成一个名为 AlphaZero 的程序。 2017年底,DeepMind正式发布了AlphaZero,这是一种从头开始通过Self-Play强化学习在多种任务上超越人类水平的算法。经过不到24小时的训练,该算法就可以在国际象棋和日本将棋方面击败此前业内顶尖的计算机程序(这些程序已经超越了人类世界冠军的水平),并轻松击败了耗时3天的AlphaGo Zero。火车。
2020 年,DeepMind 发布了 MuZero。通过将基于树的搜索和学习模型相结合,而无需了解任何底层动态,该算法不仅可以在国际象棋、将棋和围棋中的精确规划任务上与 AlphaZero 相媲美,而且还可以在 30 多种 Atari 游戏中进行竞争。表现出了超人的表现。 Julian Schrittwieser 是 MuZero 论文“Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”的核心作者之一。
2022年2月,DeepMind发布了基于Transformer模型的AlphaCode,可以编写与人类媲美的计算机程序。包括 Julian Schrittwieser 在内的许多作者随后在《科学》杂志上发表了论文。
2022 年 10 月,DeepMind 提出了 AlphaTensor,这是第一个人工智能系统,可用于发现新颖、高效且可证明正确的算法,用于矩阵乘法等基本任务,并揭示了一个 50 年来未解决的数学问题,即找到最快的算法两个矩阵相乘的方法。 AlphaTensor 建立在 AlphaZero 的基础上,展示了 AlphaZero 从用于游戏到首次用于解决未解决的数学问题的转变。
2023 年 6 月,Google DeepMind 发布了 AlphaDev,这是一种新的强化学习系统,发现了一种比以往更快的哈希算法。 Julian Schrittwieser 也是 AlphaDev 项目的核心参与者之一。
2024年7月,谷歌DeepMind团队联合开发的AlphaProof和AlphaGeometry 2在IMO竞赛中取得了里程碑式的突破。 AlphaProof 是用于形式数学推理的强化学习系统,而 AlphaGeometry 2 是 DeepMind 几何求解系统 AlphaGeometry 的改进版本。在正式比赛中,由AlphaProof+AlphaGeometry 2组成的AI系统在几分钟内解决了人类选手需要几个小时才能解决的问题。
八年前,基于强化学习的AlphaGo名声大噪;八年后,强化学习再次在AlphaProof中大放异彩。 2016 年 AlphaGo 论文的核心成员 Julian Schrittwieser、Aja Huang 和 Yannick Schroecker 现在也是 AlphaProof 的核心贡献者。有人在朋友圈感叹:RL就这么回来了!
业界普遍认为,OpenAI o1采用的关键技术还在于强化学习的搜索和学习机制,这标志着RL下的Post-Training Scaling Law时代正式到来。正如《惨痛的教训》所说,只有搜索和学习这两种学习范式才能随着算力的增长而无限扩展。强化学习作为这两种学习范式的载体,可以实现可扩展的强化学习(Scalable RL Learning)和强化学习缩放律(RL Scaling Law),这将成为进一步突破大型模型性能上限的关键途径。
这或许是Calude团队招募Julian Schrittwieser的起点。 o1研发团队在采访中也提到,OpenAI很早就受到AlphaGo的启发,意识到深度强化学习的巨大潜力,并在相关方向投入了大量研究。
作为RL领域的深耕者,Julian Schrittwieser带领Claude团队将取得怎样的成果?让我们拭目以待。
参考链接: