发布信息

谷歌等团队研究合成数据在大型模型训练中的应用:应对训练数据将耗尽问题

作者:软荐小编      2025-04-09 21:02:15     128

4 月 7 日消息来自 IT 之家,最近有一个联合研究团队,该团队由谷歌、卡内基梅隆大学和 MultiOn 组成,他们发表了一项新研究,此研究是关于合成数据在大型模型训练中的应用。

专注于人工智能发展的研究机构 Epoch AI 报告称,目前全球公开可用的高质量文本训练标记约有 300 万亿个。不过,随着像 GPT 这样的大模型迅猛发展,对训练数据的需求呈指数级上升。预计在 2026 年之前,这些数据将会被用完。所以,合成数据成为了极为重要的替代办法。

研究人员主要探索了两种合成数据类型。一种是正向数据,它是由高性能大模型(如 GPT-4 和 Gemini 1.5 Pro)生成的正确问题解决方案,能为模型提供解决数学问题的示例。另一种是负向数据。但仅依靠正向数据进行训练是有局限性的。一方面,这种方法或许不能将问题解决过程背后的逻辑完全揭示出来,模型或许会借助模式匹配来进行学习,却欠缺真正的理解;另一方面,伴随训练数据量的增多,模型有可能会学到虚假的相关性,从而在应对新问题时,其泛化能力会下降。

研究人员引入了负向数据,也就是那些经过验证是错误的问题解决步骤。这样做有助于模型去识别和避免错误,进而增强它的逻辑推理能力。虽然使用负向数据存在挑战,因为错误的步骤可能带有误导性信息,然而研究人员借助直接偏好优化(DPO)方法,让模型能够从错误中学习,同时也强调了每个问题解决步骤的重要性。

DPO 方法会给每个问题解决步骤分配一个优势值,这个优势值能够反映出该步骤相对于理想解决方案的价值。研究显示,具有高优势的步骤是正确解决方案的关键所在,而那些低优势的步骤则可能意味着在模型推理过程中存在问题。借助这些优势值,模型能够在强化学习的框架内对其策略进行动态调整,这样一来,就可以更高效地从合成数据中进行学习并加以改进。

研究团队为验证合成数据的有效性,使用了 DeepSeek-Math-7B 和 LLaMa2-7B 等模型,在 GSM8K 和 MATH 数据集上展开全面测试。结果表明,经过正向和负向合成数据预训练的大模型,在数学推理任务上的性能提升了八倍。此研究充分展示了这种增强作用的巨大潜力。

相关内容 查看全部