软件行业资讯

算力需求直降48%！月之暗面团队改进Muon算法，适用于更大模型

 作者：软荐小编  2025-02-25 10:01:45  186

算力需求相较于 AdamW 直接下降了 48%，OpenAI 的技术人员所提出的训练优化算法 Muon，被月之暗面团队进一步推进了。

团队发现了 Muon 方法的 Scaling Law 这一情况。团队对其进行了改进，并且证明了 Muon 对于更大的模型也是同样适用的。

不同的 Llama 架构模型参数量最高可达 1.5B，在这些模型上，改进后的 Muon 的算力需求只是 AdamW 的 52%。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%__月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

团队训练出了一个 16B 的 MoE 模型，这个模型是基于 DeepSeek 架构的，并且团队将其与改进后的优化算法一同开源了。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%__月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

Muon 技术博客发布时主要是适用于规模较小的模型以及数据集的。作者留下了以下三个悬而未决的问题：

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_

消息一经发出，当时 Muon 的那些作者们都感到十分激动。其中主要作者 Keller Jordan 称，这是 Muon 实现规模化的首个成功报告，并且为团队送上了祝贺。

_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

另一名贡献者，当时在负责 Muon 规模化实验的 Hyperbolic Labs 担任联合创始人兼首席技术官的 Yuchen Jin 也表明，月暗团队的这一成果，属于 Muon 的一次胜利。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_

将AdamW特点引入Muon

在开始介绍月暗团队的工作之前，首先要了解一下 Muon 是何种技术。

这是一种用于神经网络隐藏层的优化器，其参数是 2D 的。它的主要作者是 Keller Jordan，来自 OpenAI 深度学习团队。

这项成果是在去年 12 月 8 日发表的。Keller 是在去年 12 月加入 OpenAI 的。

Muon 的核心思想在于通过正交化梯度来更新矩阵。这样做可以避免参数更新陷入局部极小值的情况。从而使模型能够学习到更为多样化的特征表示。

Muon在 94%的精度下，将 CIFAR - 10 在 A100 上的训练时间从 3.3 秒缩短到了 2.6 秒。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_

当时 Muon 团队仅证明了其在小型模型和数据集上是可行的。然而，对于较大的模型是否能够适用，这是一个未知的情况。

现在经过月暗团队的改进，Muon被证明对于更大的模型是适用的，并且对于更大的数据集也是适用的。

团队针对模型本身，吸收了 AdamW 中的一些特点，并将其移植到了 Muon 当中，具体包含两个方面。

引入了权重衰减机制，在权重更新公式里添加了一项，该项带有衰减系数。

_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

作者发现直接将 Muon 应用到大规模训练时，会出现模型权重和层输出的幅度持续增长的情况，这种情况最终会超出 bf16 的高精度表示范围，从而损害模型性能，这就是这样做的原因。

在训练一个 8 亿参数模型达到 100B tokens 时（这个量约为 5 倍计算预算的最优值），团队对 AdamW、没有权重衰减的 Muon 以及带有权重衰减的 Muon 进行了对比。

结果表明，在过拟合阶段，带权重衰减的 Muon 取得了最好的效果，这验证了权重衰减是有必要的。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_

第二项改进在于对 Muon 的参数更新尺度进行了调整。这样做使得不同形状矩阵的参数更新幅度能够保持一致，同时也能与 AdamW 的更新幅度相匹配。

Muon 有一个特点，即对于矩阵参数，若其形状为[A,B]，那么它的理论更新幅度是 sqrt(1/max(A,B))。

这使得不同形状矩阵参数的更新幅度存在很大差异。例如，对于 MLP 这种宽矩阵而言，其更新幅度会过小；而当把每个 head 看作独立矩阵时，更新幅度又会过大。

这个幅度和 AdamW 不一致，并且给超参数的设置带来了困难。

作者为了使不同矩阵参数的更新幅度能够相匹配，并且与 AdamW 保持一致，尝试了若干种改进方案，最终决定直接依据形状来对每个参数的学习率进行调整。

0.2 是一个通过实验确定的常数，它的作用是将 Muon 的更新尺度与 AdamW 进行对齐。

_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

要将 Muon 用于更大规模的训练，除了对 Muon 本身进行改进之外，还需要把它扩展到分布式训练环境中。

Muon 计算正交化的更新量需要完整的梯度矩阵。现有的分布式训练框架，像 ZeRO-1、Megatron-LM 等，都假设优化器状态可以独立地按元素切分到不同设备上。因此，这些框架无法直接支持 Muon。

论文作者为了解决这个问题，提出了分布式 Muon 的并行化策略。

它在ZeRO-1的基础上引入了两个额外的操作:

这种实现方式在将内存占用和通信开销最小化的同时，把原始 Muon 算法的数学性质最大限度地保留了下来。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%__月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

证明Muon扩展可行性

作者基于上述的 Muon 进行了改进，从而取得了以下成果。作者针对 Llama 架构的一系列稠密模型，开展了 Muon 与 AdamW 的模型缩放对比实验。

结果表明，在计算预算处于最优状态时，Muon 的样本效率比 AdamW 高 1.92 倍。这意味着，要达到相当的性能，训练所需的 FLOPS 仅为 AdamW 的 52%。

这一发现证实了Muon在大规模训练中的效率优势

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%__月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

作者以 DeepSeek-V3-Small 架构为基础，然后用改进的 Muon 对 Moonlight 模型进行了训练。

Moonlight 是一个 MoE 模型，它的总参数为 15.29B，激活参数为 2.24B，训练的 token 量是 5.7T。

Moonlight 在各类任务上取得了明显更好的性能。其中包括与相同规模和数据量的模型相比，在英语理解与推理方面，如 MMLU、TriviaQA、BBH 等任务；在代码生成方面，如 Humaneval、MBPP 等任务；在数学推理方面，如 GSM8K、MATH、CMATH 等任务；以及在中文理解方面，如 C-eval、CMMLU 等任务。

Moonlight 展现出了极强的竞争力，即便与那些使用更大数据集来进行训练的稠密模型相比较。

_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

对比多个知名语言模型后发现，Moonlight 在性能与训练预算所构成的平面上推动了帕累托前沿。

帕累托前沿是经济学和管理学中的一个概念，它描述的是多目标决策问题中所有可能的最优解的集合。这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点，都意味着一个目标的改善必然会以牺牲另一个目标为代价。所以，它代表了在多个目标之间实现的最佳权衡。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%__月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

作者为了进一步剖析 Muon 更新矩阵参数的内在机理，将 Muon 和 AdamW 训练所得模型在不同训练阶段的参数矩阵奇异值谱进行了对比。

结果表明，在各层各类参数上，Muon 优化的矩阵的奇异值熵总是比 AdamW 的高。这从经验层面验证了 Muon 通过正交化去学习更具多样性表示的这种直觉。

_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%_月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

作者首先在 Moonlight 模型的基础上进行了探索。接着，探索了 Muon 在指导微调阶段的效果。最后，结果显示，在预训练和微调阶段都使用 Muon 的效果最为出色。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%__月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%

技术报告：

Code：

Moonlight模型：

下一篇： 刺客信条：影延期至3月20日发售，育碧回应日本玩家争议与反馈
上一篇： DeepSeek春节爆火：开源大模型性能优异，成本超低，AI从业者的新希望

软件行业资讯

算力需求直降48%！月之暗面团队改进Muon算法，适用于更大模型

相关内容查看全部 

美国宇航局韦伯拍

PC Gamer评Switch

任天堂Switch 2部

激光雷达系统与SW

电子科大信软学院

全球顶尖微电子科

美国对等关税政策

童年回忆香香豆：

特朗普执政下美国

菲律宾花55.8亿美

算力需求直降48%！月之暗面团队改进Muon算法，适用于更大模型

相关内容 查看全部 

相关内容查看全部 