*本文为《半月谈》2024年第22期内容
令整个物理学界惊讶的是,2024年诺贝尔物理学奖所青睐的成就是“促进人工神经网络用于机器学习的基本发现和发明”。人工神经网络到底是什么?它的潜力真的可以与基础物理科学相媲美吗?
让我们从几十年前开始吧……
从数学开始
1943年,神经科学家沃伦·麦卡洛克和数学家沃伦·皮茨提出了一种利用数学模型来模拟人脑神经元处理信息的系统,称为“多层感知器”。
上海交通大学自然科学研究院、数学科学学院副教授王宇光介绍,“多层感知器”可以看作是人工神经网络的简化版。它可以有很多层,每一层包含很多神经元,每个神经元都是一个信息处理器。该系统的原理与数学中的复合函数非常接近,不同的层可以看作不同的函数。
王宇光展示其团队开发的人工智能模型。徐东源 摄
那时,多层感知器已经可以学习更多常见的映射。例如,当人们看到一张图片时,他们会区分它的类别。多层感知器通常可以建立从图片到类别的映射。前提是层数和神经元足够多,数据量足够,训练比较好。
然而,早期人工神经网络的训练实际上是相当具有挑战性的。系统参数数量大幅增加,不可避免地带来困难。直到 Jeffrey Hinton 掌握了微积分的链式法则,并设计了反向传播算法,使人工神经网络能够自动调整海量输入数据的权重,科学家们才看到了重大升级的曙光。
然而,前进的道路会永远一帆风顺吗?
迈向深度学习
上世纪末,由于算力匮乏等现实因素,人工神经网络一度沉寂。直到21世纪初,这一领域才再次兴起。 NVIDIA开发的GPU极大地提高了计算机的并行计算能力,而互联网的普及让人工神经网络的训练如虎添翼。
一个里程碑式的转折发生在2007年,斯坦福大学教授李飞飞带领团队组织构建了一个名为ImageNet的大规模图像数据集,该数据集包含约1000万张图像,涵盖1000个不同类别。这项基础工作为下一代奠定了基础。下面的图像识别研究为验证算法是否有效设定了标准。为了带动更多人投入验证,ImageNet Challenge 应运而生。
这一挑战可以说是人工神经网络革命的催化剂。多层感知器在比赛中表现不佳,逐渐淡出历史舞台。接力棒在2012年交给了AlexNet,这一年是我们今天所熟悉的“深度学习”首次亮相的时刻。
AlexNet最重要的创新是卷积层的引入。由此构建的卷积神经网络可以更好的缓解梯度消失的问题。误差梯度逐层减小甚至消失,从而无法获得足够的梯度信息进行学习,这对于上一代人工神经网络来说是相当困难的。卷积神经网络的胜利使得更高效的深度学习成为可能。
模特绽放
在过去10年左右的时间里,神经网络模型蓬勃发展。最广为人知的可能是击败围棋大师的AlphaGo,以及预测蛋白质结构的AlphaFold,两者都来自DeepMind。 DeepMind 总部位于英国伦敦,剑桥大学和牛津大学的毕业生云集。多学科人才共同努力激发许多创新。目前,剑桥大学的科学家尝试开发一种基于图神经网络的扩散模型,用于蛋白质序列设计。中国科学家也参与其中。
值得一提的是,AlphaFold荣获2024年诺贝尔化学奖。 DeepMind于11月11日宣布AlphaFold3开源,科学家可以免费下载软件代码,并将AlphaFold3用于非商业目的。
自然语言大模型是另一条备受关注的路线。自然语言处理诞生于计算语言学。与人工神经网络“融合”后,取得了快速进展,尤其是Transformer架构的引入,为一系列新模型探索奠定了基础。 OpenAI 的 ChatGPT 你我都很熟悉。 ,可谓人工智能应用的里程碑。