发布信息

Meta GenAI 和 FAIR 团队提出全新后训练范式 CGPO,解决 RLHF 在多任务学习中的限制

作者:软荐小编      2024-11-01 16:01:16     157

近年来,随着大规模语言模型(LLM)的发展,特别是通用大型模型的应用场景越来越广泛,RLHF逐渐成为调整和优化语言模型输出的主流方法。

尽管 RLHF 在处理复杂任务方面表现良好,但其在多任务学习(MTL)中的表现受到“奖励欺骗”和多目标优化中的矛盾问题的限制。

传统的RLHF方法依赖于奖励模型的线性组合,不仅需要手动调整参数,而且很容易导致模型被某个任务的奖励优化“误导”。

最近,meta GenAI和FAIR团队提出了一种新的训练后范式——约束生成策略优化(CGPO),通过引入“Mixture of Judges(MoJ)”和高效的约束优化器来全面提高RLHF的性能。多任务环境中的性能。

编程瓶颈期__瓶颈项目

论文链接:

实验结果表明,CGPO可以根据任务的不同要求灵活调整优化策略,并通过多任务梯度累加更新模型,使其在处理不同任务时取得最佳性能。

CGPO框架:突破RLHF瓶颈的全新设计

CGPO的核心在于它突破了传统RLHF在多任务学习上的局限性,特别是在奖励优化和任务目标冲突之间找到了新的平衡。通过混合审核机制,CGPO可以有效识别并消除“奖励作弊”行为,即模型在某些任务中过度优化特定奖励指标,进而导致其他任务性能下降。

此外,CGPO的约束优化器具有自动调整能力,使其能够在不依赖手动经验的情况下找到不同任务之间的最佳平衡点。

CGPO采用基于规则和LLM的双重审查机制。在规则审查中,预定义的规则可以有效检测模型生成的结果是否满足任务要求,例如解决数学问题的正确性、代码生成的准确性等;而LLM复习则利用语言模型固有的判断能力来检测生成内容的真实性、回答的安全性等,这在处理复杂对话和开放式问题时尤为重要。

编程瓶颈期__瓶颈项目

CGPO的核心贡献

CGPO的设计从根本上解决了RLHF在多任务优化中的两大问题:

1. 防止奖励欺诈

CGPO采用混合审查机制,在模型生成过程中持续监控奖励作弊行为,以确保模型不会过度优化某项任务的奖励而牺牲其他任务的性能。与传统的RLHF方法不同,CGPO可以智能检测不合规的生成内容,并通过约束策略进行调整。

2. 解决极端多目标优化问题

多任务学习通常涉及多个甚至相互冲突的目标,传统的RLHF框架很难处理这些目标之间的平衡。通过为每个任务设置单独的审核者和优化者,CGPO 保证每个任务能够独立优化其目标,避免不同任务目标之间的相互妥协。最终,CGPO 为多任务学习提供了更好的 Pareto 前沿解决方案。

技术亮点:三大优化器、多重审核机制

CGPO 引入了三个主要的 RLHF 约束优化器 - 校准正则化策略梯度 (CRPG)、约束正则化奖励排名微调 (CRRAFT) 和约束在线 DPO (CODPO)。这些优化器不仅有效解决RLHF中的多任务优化,还具有很强的可扩展性,适用于各种规模的LLM训练场景。

1. CRPG优化器:通过将奖励建模和约束调整相结合,确保模型生成高质量的响应,同时防止偏离既定约束。在实验中,CRPG 在需要精确计算和逻辑推理的任务(例如数学和编程)中表现尤其出色。

2.CRRAFT优化器:通过奖励排名策略,只保留满足所有约束的生成结果,同时增加奖励值。优化器在回答真题和遵循指令等任务中表现良好。

3. CODPO优化器:通过直接偏好优化,保留奖励值高且符合约束的生成结果,提高模型的整体性能。

CGPO 处理多任务场景

在多任务环境中,CGPO通过“奖励模型+多任务判断器(MoJs)+优化器”的组合,为每个任务提供定制化的对齐指导,以更好地适应每个任务的独特特征。增加获得最佳对齐结果的可能性。 CGPO框架的核心由两部分组成:多目标奖励建模和多专家对齐。

1. 多目标奖励建模

CGPO的多目标奖励建模与传统的RLHF(多目标场景方法)不同。传统方法通常对所有任务使用统一的线性组合奖励模型,而CGPO首先根据提示集D的性质将提示集D分为不同的且不重叠的类别。 D 的子集 = {D1, D2,..., DL}。每个子集Di对应一个特定的任务。例如,包含有害意图的提示被分类为“恶意意图”任务,而一般对话提示被分类为“正常对话”任务。

然后,针对每个任务,选择合适的奖励模型进行训练,以保证每个任务在优化过程中只关注自己的目标指标,避免其他任务目标的干扰。通过这种分类和奖励模型定制,CGPO 能够更好地排除不相关或冲突的目标,从而增加在每项任务中实现最佳结果的可能性。

2. 多专家协调

多专家对齐是指为每个任务应用定制的多任务判断器(MoJ)、奖励模型和优化器设置。每个任务生成样本后,都会使用专门为该任务定制的判别器来过滤生成的不符合条件的结果。判别器的选择因任务而异,以反映每种奖励模型的具体缺点和 LLM 的预期标准。

例如,在“正常对话”任务中,判定器将重点评估回复的真实性和答案的拒绝性,从而提高模型的响应性和可靠性。

编程瓶颈期__瓶颈项目

在“推理”任务中,使用基于规则的数学/编程确定器来确保输出的准确性。在有限制且需要更广泛探索的任务中(例如指令遵循、数学和编程),CGPO 将采用更宽松的 KL 阈值,并允许每个提示生成更多样本;而在不需要大量探索的任务中(例如普通对话),使用更严格的KL阈值并减少生成的样本数量。

CGPO在每次迭代中处理每个任务,根据特定任务的提示集、奖励模型和确定器计算更新的梯度,然后累加所有任务的梯度,并结合预定义的任务权重更新模型参数。这样,CGPO就可以在多任务、多约束环境下高效地实现任务之间的平衡和对齐,优化每个任务的独特目标。

最终,CGPO的设计使其能够更灵活地适应多任务环境下不同任务的需求,达到更高效的对齐和优化效果。

实验验证:CGPO性能显着提升

在多任务的测试中,CGPO表现出了显着的性能优势。具体来说,在一般聊天任务(Alpacaeval-2)、STEM问答任务(Arena-Hard)、指令跟随(IFeval)、数学和推理(MATH和GSM8K)、编程任务(Humaneval)和知识问答( ARC Challenge),CGPO 显着超越了 PPO 和 DPO 等现有 RLHF 算法。

实验数据显示,与PPO相比,CGPO在Alpacaeval-2中提高了7.4%,在Arena-Hard中提高了12.5%。在数学推理任务(MATH和GSM8K)中,CGPO表现稳定,分别提高了2%。 Humaneval 中的编程测试提高了 5%

此外,PPO在编程任务中表现出奖励作弊行为,导致模型在训练后期严重退化,而CGPO通过约束优化有效避免了这一问题,保证了模型性能稳定。

_编程瓶颈期_瓶颈项目

在CGPO和PPO的性能对比中,CGPO结合CRPG和CRRAFT优化器在多个基准测试中持续改进,尤其是在ARC Challenge、Humaneval和MBPP等任务上表现良好。

相比之下,PPO在编码任务中明显下降,表明存在严重的奖励欺骗问题。虽然CODPO优化器的性能稍弱,但总体上还是优于DPO和PPO。尤其是在安全任务中,CODPO取得了最好的成绩,展示了其在多任务微调方面的优异效果。

_瓶颈项目_编程瓶颈期

通过消融实验可以发现,MoJs不仅可以防止编码任务中的奖励欺骗,而且可以显着提高模型在MATH和GSM8K中的性能。

_编程瓶颈期_瓶颈项目

结论:CGPO 为多任务学习的未来铺平了道路

CGPO框架的提出为强化学习和人类反馈在多任务学习中的应用提供了革命性的新思路。

通过创新的混合评审机制和三个约束优化器,CGPO不仅有效解决了奖励欺骗和极端多目标优化问题,还为大型语言模型的后期训练提供了更加稳定高效的优化路径。随着研究的深入,我们预计未来会看到更多基于CGPO的自动化优化方法,以进一步提高多任务学习的性能。

参考:

相关内容 查看全部