文观察者网心智观察所
摘要
人工智能技术飞速发展,深度学习在推动自然语言处理(NLP)方面发挥着核心作用,在推动计算机视觉(CV)方面也起着核心作用,同时在推动多模态应用方面同样是核心力量。近年来,大语言模型(LLMs)基于Transformer 架构取得了显着进展,像GPT 系列、Qwen 系列以及DeepSeek 系列等。这些模型在语言生成方面表现出色,在推理能力上也很突出,同时在多语言支持以及多模态融合等方面都有良好表现。本报告的目的是系统地梳理当前中国主流AI 大模型的关键技术,明确其创新点,展现其性能表现,同时对这些模型进行综合的比较与评估,以便为相关的研究和应用提供参考。
一、引言
深度学习是现代人工智能的核心技术。它模拟人脑神经网络的结构和功能,从海量数据中自动学习并提取特征,以此实现对复杂问题的高效解决。从感知机诞生开始,到Transformer 架构兴起,深度学习经历了多次重大突破,这些突破推动了图像识别、自然语言处理、医疗诊断和自动驾驶等领域的快速发展。近年来,AI 大模型基于Transformer 架构,在语言生成方面取得显着进展,在推理能力上也有突出表现,同时在多语言支持以及多模态融合等方面也成果斐然,成为推动人工智能发展的关键力量。本报告会回顾深度学习的发展历程,会分析当前中国主流AI 大模型的关键技术,会分析其创新点,并且会对这些模型进行综合比较与评估。
二、深度学习的发展历程
(一)感知机的诞生
然而,它存在局限性,即只能处理线性可分问题。
(二)多层神经网络与反向传播算法
科学家们为了克服感知机的局限性,提出了多层神经网络(DNN)。同时,通过反向传播算法(Backpropagation),实现了深层网络的训练。这一突破让神经网络能够学习更复杂的特征表示,然而,它也面临着梯度消失和梯度爆炸等问题。
(三)卷积神经网络(CNN)与循环神经网络(RNN)
CNN 利用卷积操作来提取图像的局部特征,这样就显着提升了图像识别的性能;RNN 主要致力于序列数据的学习,所以能够处理时间序列数据,像文本和语音等。不过,RNN 在处理长序列任务时遇到了梯度消失问题,这促使了LSTM 和GRU 等改进模型的诞生。
(四)注意力机制与Transformer架构
2014 年,注意力机制被提出,其作用是动态关注输入序列的关键部分。 2017 年,Transformer 架构利用自注意力机制,实现了高效的并行计算以及长距离依赖关系的建模,这在自然语言处理领域成为了一个里程碑。
(五)从Transformer到GPT
OpenAI 基于Transformer 架构开发了GPT 系列生成式预训练模型。该模型通过大规模无监督预训练以及微调,实现了卓越的语言生成能力。这推动了自然语言处理技术的进一步发展。
三、中国式创新:DeepSeek与Kimi的关键技术与方法
近年来,中国在深度学习领域取得了很明显的进展。 DeepSeek 模型通过技术创新,在性能方面实现了突破;Kimi 系列模型通过技术创新,在效率方面实现了突破。
(一)DeepSeek的关键技术与创新
MoE(Mixture-of-Experts)架构
DeepSeek-V3 的创新点在于采用了MoE 架构,它能够通过动态选择专家网络,从而优化计算资源的利用以及提升模型的性能。
DeepSeek 基于Shazeer 等人的MoE 架构,引入了无辅助损失策略,从而解决了传统MoE 模型中专家负载不平衡的问题。
在大规模训练场景下,它的表现很出色,并且显着地提升了模型的灵活性和效率。
Multi-Head Latent Attention 被称为MLA 。
创新点在于:利用低秩压缩的方式来降低KV 缓存的存储需求,并且在这个过程中能够保持与标准多头注意力相近的性能。
DeepSeek 团队在2024 年提出了MLA 架构。这种架构优化了在长序列任务中的推理性能。
性能有提升,内存占用被显着降低了,这种情况适合大规模语言模型的推理场景。
Multi-Token Prediction 指的是多标记预测。它是一种在自然语言处理等领域中常用的技术。通过这种方式,可以对文本中的多个标记进行预测和分析。
创新点在于,通过对多个未来令牌进行预测,使得模型的训练信号密度得以增强,同时也提升了数据的利用效率。
DeepSeek 在技术沿革方面,依据Gloeckle 等人的研究,对MTP 模块设计进行了改进,从而达到了更高的训练效率。
性能提升:在保持因果链的同时,显着提升了推理速度。
辅助损失自由这一策略,没有辅助损失。它是一种特定的策略,在相关情境中具有独特的作用和意义。
创新点在于:对专家的偏置项进行动态调整,这样就实现了负载的平衡,同时也避免了辅助损失给模型性能带来的负面影响。
技术沿革方面,传统的MoE 模型是依靠辅助损失来实现负载平衡的。然而,辅助损失会带来额外的训练复杂性以及性能损失。而DeepSeek 的无辅助损失策略则很好地解决了这一问题。
性能提升:在保持负载平衡的同时,显着提升了模型性能。
5. FP8混合精度训练
创新点在于首次于大规模语言模型里达成了FP8 混合精度训练。借助细粒度量化以及高精度累加技术,将训练成本明显降低了。
混合精度训练技术最早是由Narang 等人提出来的。 DeepSeek 引入了FP8 格式,从而进一步优化了训练效率。
性能得到提升,训练时间和硬件需求被显着减少,在大规模模型训练场景中表现尤为出色。
(二)Kimi的关键技术与创新
长上下文进行扩展
创新点在于将上下文窗口扩展至128k,这样就显着提升了模型在复杂推理任务中的表现。
Kimi 利用了基于Transformer 架构所具备的长序列处理能力,并且通过部分轨迹回放技术对训练效率进行了优化。
在数学任务中表现出色,在编程任务中表现出色,在多模态任务中表现出色。尤其在AIME 2024 基准测试中达到了与OpenAI 的o1 相当的性能,在MATH - 500 基准测试中也达到了与OpenAI 的o1 相当的性能。
改进的策略优化方法是一种专门用于优化策略的方式。它旨在通过特定的手段和步骤,对策略进行调整和改进,以达到更好的效果。这种方法注重对策略的各个方面进行细致的分析和优化,以提升策略的性能和适应性。
创新点在于引入了基于在线镜像下降的变体,并且将其与有效的采样策略以及长度惩罚相结合,从而提升了模型的训练效率。
技术沿革方面,Kimi 以经典强化学习算法(像REINFORCE 和PPO 等)为基础,通过对策略进行改进和优化的方法,使得模型在复杂任务中的表现得到了显着提升。
在Codeforces 基准测试中,模型的性能有显着提升。在LiveCodeBench 基准测试中,模型的性能也有显着提升。
简洁的强化学习框架,即Simplistic RL framework 。
创新点在于提出了一个简洁的强化学习框架,这个框架不需要依赖复杂的蒙特卡洛树搜索,也不需要依赖价值函数和过程奖励模型。
技术沿革方面,受到AlphaGo 和AlphaZero 等模型的启发,Kimi 对训练流程进行了简化,这样就降低了训练成本,同时也提高了模型的可扩展性。
在AIME 2024 基准测试中达到了与OpenAI 的o1 相当的性能。
4. 多模态训练(Multimodal Training)
创新点在于,将文本和视觉数据进行联合训练,这样做使得模型在多模态任务中的表现得到了显着提升。
技术沿革方面,受到CLIP 和DALL·E 等多模态模型的启发,Kimi 利用高质量的多模态数据集对模型的多模态推理能力进行了优化。
在MMMU 基准测试中性能有显着提升。在MathVista 基准测试中性能也有显着提升。
长到短的推理技术,即Long2Short Techniques
创新点在于:对长推理链进行优化,以此来提升短推理链的性能。具体措施包括模型合并、采用最短拒绝采样以及进行长到短的强化学习。
技术沿革方面,AlphaCode 和o1 等模型给予了启发,Kimi 对长推理链进行了优化,从而显着提升了短推理链的性能。
在资源受限的场景下,它的表现很出色,并且显着提升了短推理链的性能。
四、Qwen2.5的关键技术与创新
Qwen2.5 是中国人工智能领域的一项重要成果。它在大语言模型(LLM)的研究方面取得了显着进展,同时在大语言模型(LLM)的应用方面也取得了显着进展。
(一)预训练技术
1. 大规模数据预训练
创新点在于将预训练数据的规模从7 万亿token 进行了扩展,扩展到了18 万亿token,这样做使得模型的知识储备得到了显着提升,同时也增强了模型的泛化能力。
技术沿革方面,从BERT 开始,到GPT-3 以及LLaMA,预训练数据的规模一直在持续增长。 Qwen2.5 把数学和代码数据进行了整合,从而进一步对模型的性能进行了优化。
性能提升:在常识方面表现出色,在专业知识方面表现出色,在推理能力方面表现出色。尤其在数学任务中表现出色,在代码任务中表现出色。
2. 数据质量提升
创新点在于:使用Qwen2-Instruct 模型当作数据过滤器,针对训练样本展开多维度的分析以及评分工作,从而使得数据质量得到了有效的提升。
技术沿革方面,起初是简单地爬取数据,之后发展到具备复杂的过滤机制,而Qwen2.5 的数据过滤机制更为精细化。
性能提升:显着提升了模型在多语言和多领域任务中的表现。
(二)微调技术
1. 多层次强化学习
创新点在于引入了离线强化学习(DPO)以及在线强化学习(GRPO),这样做使得模型对人类偏好的适应能力得到了显着的提升。
技术沿革:Qwen2.5 以OpenAI 的InstructGPT 为基础,通过多层次强化学习对模型的指令遵循能力进行了优化。
性能提升:在长文本生成和结构化数据分析中表现出色。
2. 长文本生成优化
创新点在于,借助YARN 技术以及DCA 技术,Qwen2.5-Turbo 具备处理长达100 万token 的上下文的能力。
技术沿革方面,从GPT-2 到LLaMA ,长文本生成在NLP 领域一直是个挑战。 Qwen2.5 对上下文长度进行了优化,从而显着提升了其长文本生成能力。
性能提升:在长文本任务方面表现良好。尤其在处理很长的上下文时,表现尤为突出。
(三)架构设计
1. 混合专家模型(MoE)
创新点在于引入了MoE 架构,利用细粒度专家分割以及共享专家路由技术,从而使得模型性能得到了显着提升。
技术沿革方面,Qwen2.5 对MoE 架构进行了优化,其依据是Google 的Switch Transformer 以及DeepMind 的GShard。
在多任务任务中表现出色,在多领域任务中也表现出色,尤其在计算效率方面表现突出。
(四)多模态融合
1. 多模态模型开发
创新点:开发了多模态模型,能够处理图像和文本的融合任务。
技术沿革方面,从CLIP 开始,到Flamingo ,多模态融合逐渐成为研究的主流。 Qwen2.5 在中文任务方面表现出色,同时在多语言任务中也表现出色。
性能提升:在多模态任务中显着提升了模型的表现。
五、模型综合比较与评估
(一)DeepSeek-V3
1. 特性
架构采用MoE 架构,并且将MLA 与无辅助损失负载均衡策略相结合,还支持多token 预测训练目标。
预训练使用了14.8 万亿tokens 。这种训练支持FP8 混合精度。通过这种方式优化了训练效率和成本。
推理:支持高效的推理策略,包括预填充和解码优化。
能力表现出色,体现在知识、代码、数学和推理等任务上,尤其在数学任务和代码任务上达到了最先进水平。
2. 优势
高效训练使得训练成本显着降低,具体降低了2.788M H800 GPU 小时。
推理优化:推理速度和效率高,适合实际部署。
在多项基准测试中它的表现很优异,并且在数学任务以及代码任务上表现得尤为突出。
3. 劣势
部署要求:推荐的部署单元较大,对小团队可能不友好。
推理速度:尽管有优化,但仍有提升空间。
4. 主要技术指标
参数规模:671B总参数,37B激活参数。
训练成本:2.788M H800 GPU小时。
在MMLU 基准测试中表现优异,在MATH-500 基准测试中表现优异,在AIME 基准测试中表现优异。例如,在MMLU 测试中达到88.5%。
(二)DeepSeek-R1
1. 特性
DeepSeek-V3 架构被作为基础,同时引入了推理导向的强化学习(RL)。
训练采用冷启动数据,并且进行多阶段训练,其中包括推理导向的强化学习以及拒绝采样。
能力:专注于提升推理能力,如自我验证、反思和长链推理。
2. 优势
在推理任务方面表现得很出色,其表现与OpenAI o1-1217 是相当的。
性能提升:通过RL训练,显着提升了模型的推理性能。
3. 劣势
语言混合:在处理多语言任务时可能出现语言混合问题。
训练复杂性:RL训练过程较为复杂,对计算资源要求高。
4. 主要技术指标
参数规模为671B 总参数,37B 激活参数,与DeepSeek-V3 的参数规模相同。
在AIME 2024 基准测试中表现优异,在MATH - 500 基准测试中也表现优异。比如在AIME 2024 测试中达到了79.8%。
(三)Qwen2.5
1. 特性
架构:包括密集模型和MoE模型,支持多种配置。
训练:预训练过程中会使用18 万亿tokens 。同时会结合监督微调以及多阶段强化学习。
能力:在语言理解、数学、编码和多语言任务上表现出色。
2. 优势
在多个基准测试里,它的性能与Llama-3-405B-Instruct 是相当的,然而它的参数量却更小,展现出卓越的性能。
在多语言任务方面表现得很出色,能够支持多种语言的推理以及生成。
Qwen2.5-Plus 也可以在保持性能的同时,显着降低成本。
3. 劣势
训练复杂性:多阶段强化学习和监督微调增加了训练的复杂性。
推理速度:在长文本生成任务中,推理速度可能受限。
4. 主要技术指标
参数规模:提供从0.5B到72B的多种模型配置。
在MMLU-Pro 基准测试中表现优异,在MATH 基准测试中表现优异,在Humaneval 基准测试中表现优异。例如,在MMLU-Pro 基准测试中达到72.5%。
(四)Kimi 1.5
1. 特性
架构:多模态模型,支持文本和视觉数据的联合训练。
训练:采用长上下文扩展和改进的策略优化方法。
能力:在数学、编码和视觉推理任务上表现出色。
2. 优势
多模态能力:能够处理文本和视觉数据,适合多模态任务。
长上下文处理:通过长上下文扩展,显着提升了模型的推理能力。
在多个基准测试中取得了卓越的性能,达到了SOTA 水平。比如在AIME 2024 测试中,其性能达到了77.5%。
3. 劣势
训练资源:长上下文扩展和多模态训练对计算资源要求高。
推理速度:在长文本生成任务中,推理速度可能受限。
4. 主要技术指标
参数规模:未明确提及具体参数规模,但支持多模态训练。
在AIME 2024 基准测试中表现优异,在MATH - 500 基准测试中表现优异,在Codeforces 基准测试中表现优异。
对DeepSeek-V3、DeepSeek-R1、Qwen2.5 和Kimi 1.5 等主流AI 大模型进行分析与比较后,可以看出这些模型在不同方面各有优势,比如架构设计方面、训练效率方面、推理能力方面以及多模态融合方面等。 DeepSeek-V3 在推理和数学任务方面表现得很出色,然而R1 在多语言任务中或许会有问题;Qwen2.5 在多语言以及多任务能力上展现出了出色的表现,并且成本效益较高; Kimi 1.5 在多模态和长上下文任务上具备非常显着的优势。
未来,硬件技术会不断进步,大规模数据集也会相继出现。 AI 大模型有望在更多领域取得突破。研究方向或许有进一步对模型架构进行优化,把推理速度提升上去,让训练成本降低下来,以及把多模态融合能力增强等。另外,怎样在保持性能的情况下降低模型对计算资源的依赖,这也会是未来研究的重要方向。
六、与国外主流模型的技术趋势比较
(一)国外主流模型的发展趋势
模型规模的持续扩大
近年来,国外的主流模型,像GPT-3 等,一直在通过增加参数量的方式来提升模型的性能。比如,GPT-3 具备1750 亿个参数。 LLaMA 的参数量达到了3300 亿。而最新的Gemini 模型更是进一步将规模扩大了。这种趋势显示,大规模预训练是提升模型性能的一个重要方法。
多模态融合的探索
多模态融合在当前AI 领域是一个热点方向。国外的一些模型,像CLIP、DALL·E 以及Flamingo 等,它们通过将文本和视觉数据进行结合,使得模型在多模态任务中的表现有了显着的提升。这种融合不但增强了模型的理解能力,同时也为跨模态应用带来了新的可能性。
强化学习的应用
强化学习对提升模型推理能力和适应性起到了重要作用。比如,OpenAI 的InstructGPT 借助人类反馈的强化学习(RLHF)使模型的指令遵循能力得以提升。另外,DeepMind 的Alpha 系列模型通过强化学习在复杂任务中实现了突破。
长文本处理能力的提升
长文本生成与处理属于NLP 领域的前沿方向。国外的模型像LLaMA 以及Gemini ,它们通过对架构进行优化并且采用特定的训练方法,使得模型在长文本任务中的表现有了显着的提升。比如说,LLaMA 具备处理长达100 万token 的上下文的能力,这为长文本的生成以及分析提供了新的解决办法。
(二)中国AI大模型的技术创新特点
高效训练与推理优化
中国模型在训练效率方面展现出显着优势,在推理性能上也有突出表现。比如,DeepSeek-V3借助Mixture-of-Experts (MoE)架构以及FP8 混合精度训练,将训练成本大幅降低,达到2.788M H800 GPU 小时,并且在推理速度上保持高效。这种优化既降低了硬件需求,又提升了模型的实用性。
强化学习的深度应用
强化学习在中国模型里获得了深度应用。比如,DeepSeek-R1借助大规模强化学习(RL)使模型的推理能力得以提升,尤其在长链推理以及复杂任务方面表现极为突出。 Kimi K1.5通过对策略优化方法的改进以及简洁的强化学习框架,让模型的训练效率和推理性能都有了显着提高。
多模态融合的创新
中国模型在多模态融合方面具有独特创新。比如,Kimi K1.5 把文本和视觉数据进行联合训练,从而具备了多模态推理能力。 Qwen2.5 更进一步,开发了多模态模型,能够对图像和文本的融合任务进行处理,使模型在多模态任务中的表现有了显着提升。
长上下文处理能力的突破
中国模型在长上下文处理领域取得了明显的突破。比如,Kimi K1.5 把上下文窗口扩展到128k,从而让模型在复杂推理任务中的表现有了显着提升。 Qwen2.5-Turbo 借助YARN 和双重块注意力(DCA)技术,能够对高达100 万token 的序列进行处理,为长文本的生成和分析提供了新的解决办法。
数据质量与预训练的优化
中国模型对预训练数据的质量和规模进行了优化。其中,Qwen2.5把预训练数据规模从7 万亿token 扩充到18 万亿token,并且借助精细化的数据过滤机制提高了数据质量。这种优化不但提升了模型的性能,还为大规模预训练给出了新的思路。
(三)中国模型与国外模型的技术创新趋势对比
高效训练与推理优化
中国模型在高效训练方面展现出显着优势,也在推理优化方面展现出显着优势。比如,DeepSeek-V3借助MoE 架构以及FP8 混合精度训练,使得训练成本大幅降低,并且还能保持高效的推理速度。与之相比,国外的模型像GPT-3 和LLaMA,它们在性能上较为出色,然而在训练效率以及推理速度上依然存在提升的空间。
强化学习的深度应用
中国模型在强化学习的应用方面展现出了深度创新。比如,DeepSeek-R1借助大规模强化学习使模型的推理能力得到了提升,尤其在长链推理以及复杂任务中表现得极为出色。与之相比,像InstructGPT 这样的国外模型虽然也运用了强化学习,然而在多阶段训练以及复杂任务的适应性方面,仍然需要进一步进行优化。
多模态融合的创新
中国模型在多模态融合方面有独特创新。像Kimi K1.5 把文本和视觉数据联合起来进行训练,从而具备了多模态推理能力。 Qwen2.5 更进一步,开发出了多模态模型,能够应对图像和文本的融合任务。国外模型像CLIP 和DALL·E 相比之下,在多模态任务中展现出了出色的表现。然而,它们在跨模态推理以及复杂任务的适应性方面,仍然还有提升的空间。
长上下文处理能力的突破
中国模型在长上下文处理方面有显着突破。其中,Kimi K1.5将上下文窗口扩展至128k,从而显着提升了模型在复杂推理任务中的表现。 Qwen2.5-Turbo借助YARN 和双重块注意力(DCA)技术,能够处理长度高达100 万token 的序列。国外模型像LLaMA 和Gemini 相比之下,在长文本生成方面展现出了出色的表现。然而,它们在长上下文处理的效率以及性能上,仍然需要进一步去进行优化。
数据质量与预训练的优化
中国模型对预训练数据的质量和规模进行了优化。其中,Qwen2.5利用精细化的数据过滤机制提高了数据质量,从而显着提升了模型的性能。与之相比,国外的模型像GPT-3 和LLaMA 尽管在数据规模上持续扩大,然而在数据质量优化方面依然存在提升的余地。
七、总结与展望
在中国人工智能领域,DeepSeek 大语言模型展现出显着的技术创新,在长序列优化方面有突出表现;Kimi 大语言模型也展现出显着的技术创新,在多模态融合方面有突出表现;Qwen 等大语言模型同样展现出显着的技术创新,在混合精度训练方面有突出表现。这些技术创新不仅提升了模型的性能,更为深度学习的发展注入了新的活力。与国际主流模型相比,中国的这些创新具有一些独特的特点,呈现出一些独特的趋势。
中国模型在长序列任务优化方面较为突出。 DeepSeek 借助独特的多头潜在注意力机制(MLA)以及Mixture-of-Experts(MoE)架构,成功减少了内存瓶颈,还大幅提升了长序列任务的推理性能。这种针对特定应用场景的专门化优化,体现了中国研发在细分市场的深度追求。国外模型像OpenAI 的GPT 系列,尽管在技术方面处于领先态势,然而通常更注重大规模模型的通用性,却缺乏针对性的长序列处理方面的优化。
其次,中国模型在成本效益方面的创新值得关注。 Kimi 提升了复杂推理任务的效率,其方式是扩展上下文窗口并应用部分轨迹回放技术。这种优化使训练资源的使用更高效,尤其在资源有限的情况下,符合中国市场对成本效益的严格需求。另外,DeepSeek 实施了FP8 混合精度训练。这一举措标志着研究者在不断探索硬件成本控制和训练速度提升的方法。他们试图降低大规模模型的训练门槛。这种注重成本效益的理念,反映了近年来中国在AI 领域关注实用性的趋势。
最后,中国模型在多模态能力的融合以及提升方面处于领先地位。 Qwen 在多模态融合方面进行了创新,这体现了对不同数据类型(像文本、图像以及音频)进行整合处理的一种自然追求。这种创新不仅满足了市场对于多样化应用的需求,还为模型的广泛部署奠定了基础。相比之下,国际模型如Google 的Gemini 在多模态领域虽已有一定基础,然而在实际应用的适配性以及效率方面,仍需持续提升。
中国的DeepSeek、Kimi 和Qwen 等模型在技术创新方面呈现出独特的态势。它们在满足具体应用需求方面有突出表现,同时在控制成本方面也有成效,并且在融合多模态能力上也具备优势。其发展方向带有鲜明的地区特色。这些特点不但丰富了全球AI 技术的发展格局,还为未来的深度学习研究提供了更多实际应用的机会。
展望未来,中国模型的发展方向是:
进一步优化训练效率
中国模型在训练效率方面已经有了明显的进步。未来,有望借助更高效的训练框架以及硬件方面的支持,从而能够进一步减少训练成本,并且提升模型的实用性。
深化多模态融合
多模态融合在未来AI 领域具有重要地位。中国模型在该领域已呈现出独特的创新之处。未来有可能通过更深入地进行多模态融合,来提高模型在跨模态任务里的表现。
提升长文本处理能力
长文本处理属于NLP 领域的前沿方向。中国模型在该领域取得了明显的突破。未来有希望凭借更优化的架构以及训练方法,进一步提高模型在长文本生成与分析方面的表现。
增强模型的可解释性
深度学习模型在性能方面取得了巨大的成功,然而模型的可解释性依然是个挑战。未来,中国的模型有希望借助新的技术手段,来提升模型的可解释性,进而增强它在实际应用中的可信度。
来源|心智观察所