3 月 24 日晚,DeepSeek-V3 发布了小版本的升级。经实际测试,其表现远远超出了预期。几乎就在这个时候,另一款国产大模型蚂蚁百灵,它是凭借国产芯片进行训练的,实现了同等性能的突破,并且还将训练成本再次降低了 20%,这同样引起了市场的关注。
团队公布的论文显示,蚂蚁推出了百灵大模型。该模型分为两个版本,一个是参数规模为 168 亿(激活参数 27.5 亿)的百灵 Lite;另一个是参数规模为 2900 亿(激活参数 288 亿)的百灵 Plus。实验表明,使用国产较低性能的 GPU 芯片是可以完成 3000 亿参数的 MoE 大语言模型训练的。同时,其性能与英伟达芯片训练的同等参数模型相当。
记者在论文中获悉,MoE 大模型的训练一般依靠英伟达 H100 或 H800 这类高性能 GPU 芯片。然而,过高的成本以及出口管制等状况,对大模型的普及应用形成了限制。所以,百灵团队借助低性能 GPU 来开展模型训练,并在模型训练环境、优化策略、基础设施、训练过程、评估结果以及推理等方面进行优化,以低成本来重现高性能模型。
其中,跨异构计算以及分布式集群属于百灵大模型的训练创新举措。蚂蚁相关人士介绍称,跨异构计算与分布式集群主要是为了解决基座芯片的混合性能方面的问题。不同品牌和型号的芯片,其结构与性能存在差异,协同处理数据时需要借助分布式和跨异构计算来弥补芯片之间的差异,如此一来,能够更好地降低芯片成本,避免因被同一种芯片的产能所限制。
值得一提的是,百灵团队借助 5 种不同芯片配置的硬件来对百灵 Plus 进行训练。其中,采用高性能硬件配置进行 1 万亿 token(词元)的预训练,其成本约为 635 万元。而经过百灵调优的低规格硬件进行训练的成本将降至 508 万元左右,成本降低了约 20%。并且,其性能与通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当。相关人士透露,这种测试结果是在实验环境下取得的。真实使用感受之间的差距,仍需要进行验证。
目前,百灵大模型已经在生活服务、金融服务、医疗健康等场景开始落地并应用。对于百灵大模型所获得的成绩,蚂蚁集团作出回应,表明未来会针对不同的芯片持续进行调优,目的是降低 AI 应用的成本,并且百灵 Plus 和百灵 Lite 这两款大模型将会在以后开源。