2月8日,由Google的人工智能研究实验室的子公司开发的人工智能系统Alphageometry2在解决国际数学奥林匹克(IMO)的几何问题方面已取得了突破性的进步,甚至超过了平均金牌者的表现。 。
Alphageometry2是DeepMind于今年1月发布的载字母度系统的改进版本。根据DeepMind研究人员最近发表的一篇论文,在过去25年中,AI系统可以解决国际数学奥运会中的84%的几何问题。国际数学奥林匹克运动会是一项针对高中生的数学竞赛,而DeepMind认为,发现解决复杂的几何问题的新方法,尤其是欧几里得几何问题,可能是实现更强大的人工智能的关键。
证明为什么数学定理或逻辑解释定理(例如毕达哥拉斯定理)需要推理能力,并能够从各种可能的步骤中选择解决方案。如果DeepMind的观点是正确的,那么这些解决问题的技能将在未来成为一般AI模型的重要组成部分。
It Home指出,去年夏天,DeepMind展示了一个将Alphageometry2与Alphaproof(用于正式数学推理的AI模型)相结合的系统,成功解决了2024年国际数学奥林匹克运动会的六个问题。其中4个。除了几何问题外,类似方法还可以扩展到其他数学和科学领域,例如协助复杂的工程计算。
Alphageometry2包含多个核心元素,包括Google Gemini系列AI模型中的语言模型和“符号引擎”。双子座模型有助于符号引擎,该引擎使用数学规则为问题提供了解决方案,并为给定的几何定理提供了可行的证据。
由于将证据转换为AI-GROMATS的复杂性,因此可用的几何训练数据很少。因此,DeepMind为Alphageometry2的语言模型创建了自己的合成数据,生成了超过3亿个定理和不同复杂性的证据。
研究小组在过去25年(2000-2024)中选择了国际数学奥林匹克运动竞赛中的45个几何问题,其中包括需要在飞机上移动几何对象并将它们“转化”成更大的几何对象的线性方程和方程。集合50个问题(出于技术原因,需要分为两个问题)。根据该论文,Alphageometry2解决了其中42个问题,超过了40.9的平均金牌得主得分。
但是,该系统也有局限性。技术问题导致Alphageometry2无法解决涉及可变数量点,非线性方程和不平等的问题。此外,尽管Alphageometry2不是第一个在几何问题中实现金牌性能的AI系统,但它是第一个在此类规模的问题集上实现此目的的系统。
Alphageometry2的表现在另一组更具挑战性的国际数学奥林匹克问题上并不令人满意。 DeepMind团队选择了数学专家提名为比赛提名的29个其他问题,但尚未参加比赛,Alphageometry2只能解决其中的20个。