3 月5 日,全球最大的计算机专业人士协会即计算机协会(ACM)进行了宣布。该协会将2024 年的图灵奖授予了安德鲁·巴托(Andrew Barto)博士和理查德·萨顿(Richard Sutton)博士。此举是为了表彰他们在强化学习领域所做出的奠基性贡献。
巴托目前的身份是马萨诸塞大学荣誉退休教授。萨顿当下担任着阿尔伯塔大学教授这一职务,并且他之前是DeepMind 的研究科学家。
查德·萨顿享有“强化学习之父”的美名。安德鲁·巴托是萨顿的博士导师。从1980 年代开始,这两位学者在一系列论文里提出了强化学习的主要思想。他们还构建了强化学习的数学基础。并且开发了强化学习的重要算法。 《Reinforcement Learning: An Introduction》是两人合着的,它一直以来都是强化学习领域极为经典的教材之一。
ACM 在颁奖词里对两位科学家的贡献给予了高度评价。萨顿的工作推动了强化学习的理论发展。巴托的工作为深度强化学习的崛起铺平了道路。他们的研究成果在游戏AI 领域产生了深远影响。他们的研究成果在机器人控制领域产生了深远影响。他们的研究成果在自动驾驶领域产生了深远影响。
强化学习在近年来取得了突破性进展。 2016 年,谷歌DeepMind 开发的AlphaGo 通过强化学习技术战胜了世界顶级围棋选手李世石,这一事件令全球震惊。
过去十年,强化学习在人工智能(AI)的崛起过程中起到了极为重要的作用。其中包括OpenAI 的GPT 以及DeepSeek 等具有突破性的技术。
强化学习在许多其他领域取得了成功,其中一个领域是机器人运动技能学习。机器手能够通过强化学习学会操作物体以及解决物理问题。这种学习过程既可以在模拟环境中完成,之后又能迁移到现实世界中。
在领奖的时候,巴托和萨顿表达了对当前人工智能开发中安全隐患的担忧。巴托指出,很多公司在产品未经过充分测试就急于推向市场,这种行为就如同“建造一座桥,接着让行人使用来测试其安全性”。
萨顿补充道,人工智能公司深受商业利益的驱动,对研究的深入发展有所忽视。他们向业界发出呼吁,希望业界能够重视技术可能带来的负面影响,并且遵循更为严谨的安全标准。
ACM 图灵奖被称作“计算机领域的诺贝尔奖”。它的奖金为100 万美元。资金支持由谷歌公司提供。该奖项是以提出计算数学基础的英国数学家艾伦・图灵来命名的。