[文本/观察者网络列作者pan yu]
深度学习,为什么这个流行的技术圈子中如此引人入胜的词汇?它就像数据的探险家,使用深层神经网络(DNN)来探索信息海洋中的谜团。这里的“深度”是指一个更深层次的学习过程,可以自动从复杂数据中提取有价值的特征,而无需人工设计。
无论是图像识别还是自然语言处理,深度学习都成为幕后的英雄。但是,当您听到GPT或Transformer的名称时,您总是不禁想知道它们背后的秘密吗?
最近,在互联网上很受欢迎的中国“ AI行业” DeepSeek使用模型架构创新来节省视频记忆和计算资源,同时执行出色的性能。您也可以从0-1开始进行技术创新。您可能已经听说过其创新的建筑设计,要求引起潜在的关注(MLA)机制。如果您想了解这意味着什么?
这是本文的目的 - 在简单地理解语言的语言中,心理观察将带您回顾深度学习的发展历史,从感知机器的萌芽到gpt的荣耀,并揭露那些重要的人技术突破。
从感知机到深神经网络
让我们回到1958年。当时,弗兰克·罗森布拉特(Frank Rosenblatt)提出了一台感知机,该机器是神经网络的发起人。感知计算机就像一个简单的开关,接收信号,加权计算,然后通过神奇的激活函数确定它是打开还是关闭它。这就像说:“嘿,这张图像是猫还是狗?”如果信号足够强,它将说:“这是一只猫!”否则:“不是猫!”体重变得更聪明。
感知机的基本结构类似于生物神经元。它接收多个输入信号,并通过加权计算生成输出信号。每个输入代表特定特征,例如图像中的像素值。每个输入都有连接的权重,感知机会,可以通过相应的权重乘以所有输入并总结结果。
和谐之后,结果由激活函数确定以确定输出是0还是1。例如,如果且超过一定的阈值,感知到的机器的输出表示某个类别;否则,输出0。通过一组标记的训练数据,感知机可以调整输入的重量,以连续优化其判断的准确性。
感知计算机特别适合线性部门的问题,例如简单的分类任务,例如判断电子邮件是“垃圾邮件”还是“正常电子邮件”。但是,感知机也有其局限性。它只能处理线性划分的,也就是说,对于一些更复杂的非线性问题(例如某些图像识别任务),单个层次感知计算机无法正确分类。
尽管感知机有其局限性,但其建议标志着神经网络技术的开始,然后开发了更复杂的多层神经网络。
多层神经网络(也称为深神经网络)通常由多个级别组成,包括输入层,隐藏层和输出层。每个层由多个神经元组成,神经元通过权重连接以形成复杂的网络结构。当输入数据通过网络输入时,按一层处理和转换以实现最终输出。
到1986年,三位大师Rumelhart,Hinton和Williams启动了倒退算法,以开辟一个新的世界,以培训多层神经网络。这组算法的核心概念是:当模型预测错误时,您可以告诉如何通过错误信息调整网络的重量。
杰弗里·欣顿(Geoffrey Hinton)
想象一下,反向沟通就像一位正在纠正作业的老师,指出了学生的错误并给出了具体的改进建议。它通过链条规则计算梯度并逐层调节重量,最后使模型的预测错误变得越来越小。
梯度计算的目的是找到损失函数的最小值。损耗函数衡量网络预测输出与实际输出之间的差异。优化过程是通过调整网络的重量和偏差来连续降低损耗函数的值,从而提高模型的预测性能。
反向通信算法的核心是通过链条规则有效地计算每个参数(权重)的梯度,从而优化网络的性能。
在整个过程中,在网络中输入数据,神经元通过激活功能来计算输出,从输入层一直传播到输出层。计算预测输出和实际输出之间的错误(损失函数),此错误将用于随后的重量更新。
反向传播从输出层开始。首先,计算输出层中每个神经元的误差,通常使用平均正方形误差(MSE)的损耗函数进行测量。然后,输出层的误差通过链条规则扩展到每个隐藏层。指导每一层神经元的重量,并计算与每个重量相对应的梯度。最后,使用计算出的梯度信息通过优化算法(例如梯度下降方法)来减少预测错误来调整网络的重量。此过程将重复执行,直到网络收敛到较低的误差级别。
尽管该算法解决了培训深网的技术问题,但由于当时的计算资源和数据量,深度学习的发展仍在步履蹒跚。
梯度的消失也是一个问题。随着网络层数量的增加,在反向传输过程中,错误的梯度可能会逐渐减小到接近零,从而导致重量更新,并影响模型的学习效果。
卷积神经网络和循环神经网络
面对深度学习的瓶颈,科学家已经开始为不同任务开发特殊的网络模型。其中,卷积神经网络(CNN)和循环神经网络(RNN)已成为两个主要恒星。
提出了卷积神经网络(CNN),以在处理图像数据时解决传统深层神经网络的效率和准确性。 CNN通过引入卷积操作并有效地解决了一系列图像处理中的挑战,从而优化了网络结构。
想象一下,您是一个侦探,正在分析复杂的地图(例如城市的推动)。该地图包含许多详细信息:道路,建筑物,河流等。为了找到重要信息,您不会一次查看完整的地图,而是使用“放大镜”来逐渐扫描地图的不同区域。
放大镜是卷积核。放大镜是固定尺寸的工具(例如3x3矩阵)。您可以使用它来覆盖地图的小区域(感觉野生),并捕获本地特征(例如建筑形状或道路越过)。
逐渐移动放大镜的是卷积操作。您将逐渐移动放大镜(滑动窗)以扫描整个地图。每次移动时,都会记录当前区域的特征。每个小区域的分析结果形成一个“摘要表”(特征图),以告诉您哪些区域更重要。多层放大玻璃是多层卷积。您可以使用不同的放大镜(卷积内核)注意不同的细节,例如一个查看建筑物形状的方式,而另一种查看道路模式的方式。经过多层分析后,您可以更好地理解整个地图。
与CNN不同,提出了循环神经网络(RNN)来解决序列数据学习任务。它特别适合处理时间顺序或序列数据(例如文本,音频等)。
想象一下,您正在读小说,而不是一口气阅读完整的书。您将一一阅读句子,并继续记住先前的信息以了解当前的情节。
当前句子是当前时间步骤的数据。每当您只查看一个小段落(一个时间步骤输入,例如单词或句子)。您的内存是隐藏状态。您将使用“内存”来记住上一个内容(例如上一章中发生的事情),并结合当前句子的内容以了解当前图。每次阅读新句子时,您的理解都取决于上一个内存。
例如,当阅读“她突然哭泣”时,您需要记住她失去了最好的朋友。这种来回依赖性是循环结构。如果您的内存有限(梯度消失问题),您可能会在很久以前忘记细节。例如,刚刚阅读的句子是最大的影响,而先前的内容逐渐被遗忘了。被遗忘的旧信息,与模型相对应的信息遗忘的机制。
CNN就像一名带有放大玻璃扫描图片的侦探。它逐渐提取本地信息并集成到全球理解中,这非常适合处理图像数据。 RNN就像一个读者,他逐渐阅读和了解时间序列数据(例如文本或语音),并捕获记忆捕获前后的关联。
处理时间序列数据时,RNN将遇到梯度的消失和梯度爆炸。梯度的消失意味着在反向传播中,梯度值可能会随着时间步长而继续减少,这最终使网络很难更新上一刻的重量。这使得模型无法有效地学习长期依赖性所依赖的信息。相反,在某些情况下,梯度可能会迅速增加,从而导致模型的不稳定价值和难度。这是梯度爆炸。
此外,当处理传统的RNN时,处理上下文时很难捕获长时间的间隔依赖性。例如,在分析文本时,您可能需要了解早期位置的信息,并且无法保证标准RNN的设计。
为了解决这些问题,Seppp Hochreit和JürgenSchmidhuber在1997年提出了一种特殊的递归神经网络(RNN),即长期短期存储网络(LSTM,长期短期记忆)。 LSTM通过引入门控制机制有效地解决了上述问题。
JürgenSchmidhuber
想象一下,您正在听很长的演讲。这些缺点需要在避免冗长的信息的同时,在演讲中快速记录关键内容。
缺点员工有一个笔记本,该笔记本专门用于记录重要内容(长期记忆),但他必须谨慎选择应保留哪些信息。笔记本是单元状态,可以将其理解为可以存储信息并在序列处理过程中调整门控制机制的内存单元。记忆单元的状态可以长时间维持,并且不容易受到梯度消失的影响。
这些缺点将根据当前听到的内容判断哪些信息值得记录。如果它是重要的内容(例如演讲的核心点),请写一个笔记本;如果它是无关的信息(例如冗长的细节),请忽略它。缺点的耳朵是输入门,输入门控制信息的流入,即确定需要将哪些新信息添加到存储单元中。它是通过激活函数组合而实现的,并且输出值在0到1之间,从而控制了输入程度。
为了使笔记简明,这些缺点会定期擦除不再重要的橡胶信息的信息。例如,前面提到的背景内容在随后的演讲中可能没有用。缺点的橡胶摩擦是忘记门。被遗忘的门用于控制记忆单元中丢弃信息的程度,该程度确定了哪些信息是多余的或不需要维护的。它也可以通过激活功能来实现。输出值越接近,应保留信息的越多。
每当有人询问快速笔记的核心内容时,他都会从笔记本中提取关键点并以清晰的语言表达。缺点的摘要是输出门,输出门决定从内存单元输出哪些信息。它根据当前输入和先前的隐藏状态设置输出的重量。
LSTM就像一个精明的缺点。管理信息通过门控制机制流动,在长期任务中以高效率记录记录关键内容,并忽略无用的细节。 LSTM的关键是有效地记住长期重要的重要信息并同时丢弃无用的内容,因此它比普通的RNN更聪明,因为它解决了普通RNN短暂记忆的缺点,并且易于忘记长时间的依赖性。它的独特结构和功能使其在捕获长范围依赖性和顺序信息方面具有显着优势,并广泛用于多个领域,例如语音识别,自然语言处理和时间顺序分析。
随着硬件(GPU)的发展和大型数据集的兴起(例如ImageNet),深度学习已经破裂。 Imagenet是一个大图像数据库,由超过1400万个标准的赌注组成,涵盖了各种对象。它为深度学习研究提供了丰富的数据支持。 2012年,Alexnet使用CNN在ImageNet竞争中取得了革命性的成果,这标志着深度学习的全面复兴。
在Alexnet之前,计算机视觉字段主要依赖传统的功能提取技术,该技术通常需要手动设计功能提取算法。尽管某些基本的机器学习算法(例如支持向量机)应用于图像分类,但它们在复杂性处理方面受到限制。在之前和之前,尽管现有的深度学习模型在某些任务中取得了成功,但大规模数据集的处理能力和计算资源短缺限制了深度学习方法的促进和发展。
在2012年的ILSVRC竞争中,Alexnet的错误率超过15.3%,而第二名的错误率为25.7%。 Alexnet的架构设计包含一些重要的创新点,例如更深的神经网络,训练过程中的数据增强和图像预处理,并充分利用图形处理单元(GPU)进行并行计算,从而极大地提高了训练速度。这成功证明了卷积神经网络在图像分类中的强大能力,并为随后的深度学习研究和应用创造了广泛的前景。