发布信息

2024 年全球主流企业加快推出 MoE 大模型,成控制成本提升性能新方向

作者:软荐小编      2024-11-04 14:00:59     139

2024年,全球主流企业将加速推出大型MoE车型。 1-5月,采用教育部优化架构发布的超千亿规模模型,数量超过近三年的总和。 MoE大模型架构由于具有平衡大模型训练成本和计算效率的优势,更适合处理大规模数据和复​​杂任务。它已成为谷歌、OpenAI、阿里巴巴、腾讯等公司控制成本、提高模型性能、应对“大模型价格”的重要工具。战争的新方向。

教育部的内涵、优势、发展历程及主要参与者

MoE(Mixture of Experts,混合专家模型)是一种用于提高深度学习模型性能和效率的技术架构。它主要由一组专家模型和一个门控模型组成。其核心思想是在处理任务时只激活部分专家模型,并通过门控模型控制专家模型的选择和加权混合。总之,教育部在训练过程中通过门控模型实现“因材施教”,进而在推理过程中实现专家模型之间“取长补短”。

图1 MoE架构原理图1

MoE的特点优势是专业化、动态性和稀疏性,在模型开发成本、训练/推理效率和整体性能之间达到最佳平衡。首先是采用混合专家方法。每个专家模型针对不同的数据或任务进行针对性的建模和处理,以提高模型的准确性和专业能力,更好地适应多模态数据和复杂/特定的任务计算。二是根据任务的需要灵活选择和组合合适的专家模型,使模型能够动态适应不同的输入样本和任务场景,提高模型的灵活性、可解释性和表达能力。三是激活或仅使用部分专家模型,减少不必要的计算,提高模型计算速度,降低算力需求。研究表明,与密集模型相比,MoE+指令调优仅使用1/3的算力即可将大型模型的性能提升约45%,缩短训练时间,且参数规模越大效果越好。

MoE并不是一项全新的技术,它与Transformer的融合已经到了发展的“拐点”。早期,MoE主要作为一种集成学习方法来提高模型预测性能。例如,谷歌将MoE引入自然语言处理领域,以提高机器翻译性能。 2020年,Google Gshard首次将MoE引入Transformer中,构建分布式并行计算架构,为MoE发展开辟了新思路。此后,教育部逐步进入规模化发展阶段。作为一种底层架构优化方法,与Transformer结合,先后应用于推荐系统、自然语言处理、计算机视觉、多模态大模型等领域。

图2 MoE模型发展历程

基于Transformer的MoE已经成为大型车型的主流架构,国内外主流企业都在以差异化的方式推进MoE大型车型的布局和落地。 2024年,全球大型教育部车型数量将爆发。据公开统计,2024年1月至5月全球发布大型MoE车型约20款,超过2021-2023年三年的总数(约10款),且以多模联运大型车型为主(约占90款)。 %)。谷歌、OpenAI、阿里巴巴、华为、腾讯等大型企业重点利用MoE来提高大型模型的性能和实用性。 Mistral AI、昆仑万维、MiniMax、环方量化等初创企业重点利用教育部的低成本优势抢占AI市场。

表1 部分企业教育部大机型布局及发布

教育部发展仍面临挑战

1. 训练和微调面临稳定性和可靠性挑战。

在训练阶段,MoE通过“条件计算”的思想引入稀疏性。其将代币分配给固定数量的专家的离散特性带来了专家负载平衡问题,很容易导致某些专家被过度利用而另一些专家却未被充分利用。影响专家的专业化并降低模型性能。虽然目前可以通过引入辅助损失函数等方式缓解这个问题,但仍然会导致模型训练不稳定。在微调阶段,与稠密模型相比,稀疏模型的微调更容易产生过拟合问题,很容易导致泛化能力不足,影响模型的整体性能。例如,SuperGLUE 等中使用了具有 1.6T 参数的 MoE 预训练模型 Switch Transformer。在常见基准上进行微调时,其整体性能落后于较小的 Model 3。

2、大规模分布式部署困难,通信成本高。

一方面,虽然MoE可以在不改变模型参数总数的情况下减少计算需求,但它仍然需要将所有参数加载到内存中。因此,MoE对内存要求较高,超大规模参数模型的专家层需要部署在不同的设备上以减少内存消耗。实际部署是非常困难的。另一方面,随着 MoE 模型的参数大小/复杂性不断增加,模型训练期间的高效通信变得越来越重要。模型复杂性和通信开销之间的权衡一直是分布式训练中的一个主要问题。 MoE模型中专家之间的数据交换和并行训练需要机器之间的全对全通信,这增加了通信成本。模型规模越大,沟通成本越高。因此,在实际部署过程中,需要仔细设计通信策略并优化网络拓扑,以减少通信延迟和潜在的网络拥塞。

3、MoE架构存在原有缺陷,难以与现有架构融合,部分关键技术仍需攻克。

首先,教育部仍存在知识混杂、知识冗余等原有架构缺陷,很容易导致专家同质化严重、专业能力不足。与此同时,MoE中的超参数调整、专家模型设计与协作、对数据变化的动态适应、对数据噪声的相对敏感性等技术问题仍需解决。其次,MoE架构设计非常复杂,涉及网络类型、专家数量等多个方面。目前,FFN、LSTM、CNN、Attention、LoRA等各种网络架构已被用作专家模型,但各种网络类型专家的混合仍然是一个新兴的研究领域。第三,将MoE集成到现有模型框架中对于降低现有模型升级成本和促进MoE的广泛应用至关重要,但它可能会损害模型性能,需要进一步优化并行预训练和推理策略。

教育部未来重点研究方向

1.通过优化MoE架构、改进门控算法,提高模型性能和稳定性。

首先,业界正在加速开发各种新的MoE架构,以提高模型性能或实用性。例如,清华大学和微软联合提出了MH-MoE5,利用多头机制弥补了MoE原有的缺陷,将专家激活率从8.33%提高到90.71%,提高了模型的高效扩展能力;华为提出了新的LocMoE架构,并将其嵌入到盘古大模型中。提高模型的通用性、可解释性、可移植性等。其次,多项研究表明,通过改进门控算法或调整训练策略,可以有效提高MoE模型的稳定性和性能。例如,AdvMoE通过算法优化分别训练门控模型和专家模型,显着提高了MoE模型的对抗鲁棒性。和整体效率6;普林斯顿大学和 meta AI 联合提出了 Lory 方法,引入因果分割路由策略和基于相似性的数据批量处理技术,提高了模型效率和专家专业化能力7。

2. 构建分布式训练系统/软件工具,提高MoE模型训练效率,降低训练门槛。

清华团队发布了FastMoE、FasterMoE、SmartMoE3等一系列分布式训练系统。与直接使用PyTorch相比,FastMoE可以将训练速度提高47倍; SmartMoE支持MoE模型的一键分布式训练,优化模型训练性能。微软的 DeepSpeed9 系统提供了端到端的 MoE 训练和推理解决方案。结合模型压缩等技术,可以提供更快、更便宜的MoE模型推理服务。与同质量的密集模型相比,可加速4.5倍,成本降低。 9次。斯坦福大学、微软和谷歌联合推出的MegaBlocks系统,针对多专家在单GPU上运行的场景,提高了MoE的训练效率。与最先进的Tutel库相比,端到端训练速度提升40%。

3、利用模型蒸馏、硬件优化等技术降低MoE模型部署难度。

首先是通过模型蒸馏和任务级路由等技术来保持模型性能,同时降低模型复杂性。 Google 将 Switch Transformer 提炼回其对应的稠密模型,将参数大小减少了 95%,成功保留了稀疏性带来的约 30-40% 的性能提升,加快了预训练速度,并支持在推理时使用更高级的模型。小模型。此外,通过任务级路由技术将整个句子或任务直接路由给专家,或者提取特定服务的子网络,有助于简化模型结构。二是研究更适合稀疏计算的硬件优化技术,以节省内存、加速计算。研究表明,块稀疏Flash Attention注意力机制可以进一步减少GPU显存访问次数,加快计算速度并节省显存;结合PagedAttention构建vLLM11(LLM推理加速系统),可以实现KV缓存的零浪费,并支持请求之间共享KV缓存,从而减少内存使用,实现高效的内存管理。

4、通过系统优化、共享专家、沟通结构设计等降低沟通成本。

首先是通过系统优化来平衡模型复杂性和通信开销。例如,ScMoE12采用通信重叠并行策略,克服了分布式MoE模型中通信操作的固有依赖性造成的并行优化障碍,实现了11%的训练速度提升。 ,推理速度提升15%,8×A800-NVlink场景下通信时间仅为标准MoE的15%。二是采用共享专家方法,减少分布式系统之间的数据传输。例如,DeepSeekMoE13采用共享专家、细粒度专家分割等策略,可以有效解决MoE中的参数冗余、路由崩溃等问题,并且在145B参数的情况下,只需要约28.5%的计算量达到DeepSeek 67B的性能水平。三是通过沟通结构设计提高沟通效率。例如,SCoMoE通过结构化的全连接通信鼓励跨设备的数据通信,并结合标签聚类方法来提高模型性能和效率。

结论

MoE给企业带来平衡算力成本和计算效率、加速万亿/百万亿模型参数规模扩展、提高大型模型实用性等机遇。这也带来了关键技术研究、大规模工程部署、网络拓扑优化等方面的挑战。未来,我们应继续探索MoE架构设计、相关算法和策略改进、软硬件协同优化等技术,加快MoE模型发展和业务赋能。同时,结合MOE模型的分布式部署,探索千亿/万亿参数大型模型跨数据中心分布式训练的试点验证。

评论

1. 来源:论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》

2. 参考论文:《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》

3.参考论文:《St-moe:设计稳定且可转移的稀疏专家模型》

4.参考论文:《Gshard:利用条件计算和自动分片扩展巨型模型》

5.参考论文:《Multi-Head Mixture-of-Experts》

6.参考论文:《Robust Mixture-of-Expert Training for Convolutional Neural Networks》

7.参考论文:《Lory:Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training》

8.参考论文:《SMARTMoE:通过结合离线和在线并行化有效训练稀疏激活模型》

9. 参考论文:《DeepSpeed-MoE:推进专家混合推理和训练以推动下一代人工智能规模》

10. 参考论文:《Flashattention:具有 io-awareness 的快速且高效内存的精确注意力》

11.参考论文:《Efficient Memory Management for Large Language Model Serving with PagedAttention》

12. 参考论文:“用于加速专家混合的快捷连接专家并行性”。

13. 参考论文:“Deepspeed-moe:推进专家混合推理和训练,为下一代人工智能规模提供动力。”

相关内容 查看全部