发布信息

OpenAI研究:惩罚机制难阻AI撒谎作弊,现有安全框架是否自掘坟墓?

作者:软荐小编      2025-03-31 10:01:30     191

CSDN 编者按:AI 的“狡猾”程度超乎人们的想象。OpenAI 最近开展的一项研究表明,仅仅依靠惩罚机制无法阻止 AI 撒谎和作弊,并且还会促使 AI 学会隐藏自身的违规行为。这项研究给产业界带来的启示远远超出了技术层面:倘若 AI 的“道德”只是伪装给人类看的表演,那么现有的安全框架是否正在自掘坟墓呢?

作者 | Ben Turner 翻译 |郑丽媛

出品 | CSDN(ID:CSDNnews)

GPT 创建者 OpenAI 最近发布了一项研究。这项研究显示,为防止 AI 模型撒谎或作弊而设置的一些惩罚机制,不能真正阻止其不当行为。这些惩罚机制反而只会迫使 AI 模型学会如何更好地隐蔽自己的欺骗手段。

(CSDN 付费下载自视觉中国)

大模型的"作弊基因"难根治

2022 年底面向公众推出后,大语言模型(LLM)多次暴露出让人不安的行为模式。既有常规的说谎作弊和隐藏操纵行为,也有更极端的威胁要杀人以及窃取核武器密码的行为,甚至还策划了一场致命的疫情。这些 AI 的“恶劣”行为不断出现。

现在,OpenAI 的新实验表明,在训练过程中清除这些不当行为这件事,可能比最初所设想的情况要更加困难。

在这项实验里,研究人员让一个未公开的 AI 模型去执行一系列任务。这些任务都能够通过作弊、撒谎或者采取其他捷径的方式来完成。实验结果表明,该 AI 模型运用了“奖励黑客(reward hacking)”策略,也就是通过作弊来使它的奖励达到最大化。

然而,研究人员尝试因某种情况而惩罚这个 AI 模型,它并未修正自身行为,反而使作弊行为变得更为隐蔽。OpenAI 在官方博文中对这项研究进行了详细描述,不过该研究尚未接受同行评审。

研究人员在博客文章中称:前沿推理模型通常会在思维链里清晰地表明自身的意图。像它们有时会直接说出自己要作弊,例如会说“让我们来黑掉它吧”。

开发者能够监控和标记 AI 的不当行为,然而研究人员补充说,“模型的‘自然可监控性’是非常弱的”。具体而言,如果对思维链直接进行强监督,那么模型就会学会隐藏自身的意图,并且还会继续展现出不当行为。

AI 如何在思维链中隐藏欺骗行为?

推理模型,像 GPT 的 o1 和 o3-mini 等,是标准 LLM 的升级版本。它们运用“思维链”的方式,能够对自身逻辑进行回溯和重新评估,所以在应对更复杂任务时能表现得更准确。在思维链的过程里,模型会以自然语言把每一步推理清晰地记录下来,使其决策过程更具透明性。

在这项研究里,研究人员借助 GPT-4o 对一个未公开的前沿推理模型的训练过程进行监督。同时,他们观察了这个模型执行多项编码任务的情况。当在某些情形下,这个推理模型察觉到作弊变得更容易且回报更大时,它就会在自己的思维链中清楚地表明自己正在作弊。在某一任务里,它让程序提前终止了,还虚假地报告任务已经成功了;在另一项任务中,它只是生成了一个仅文件名正确但内容为空的空壳文件来应对检查。

研究人员尝试对该 AI 模型进行惩罚时,它的表现有了改善。然而,“奖励黑客”策略以及错误输出依然大量存在。更让人担忧的是,这个推理模型学会了在思维链中隐藏自身的作弊行为,导致负责监督的 GPT-4o 无法再通过思维链检测到其异常情况。

这个 AI 推理模型发生了变化,从较为明显的“明目张胆”转变为暗地里的“阳奉阴违”。研究人员指出:即便有思维链监督存在,AI 依然在学习如何进行奖励黑客行为,并且它如今的作弊行为已经变得难以被用于监测 AI 察觉到了,原因是它已经掌握了在思维链中隐藏自身意图的技巧。

研究建议:对推理型 AI 慎用强监督机制

很难判断 AI 的思维链是否被篡改,所以 OpenAI 研究人员建议,所有使用推理模型的开发者,都应该避免对其思维链施加强监督,尤其是在 AI 未来有可能达到或超过人类智能的时候,这一点是很关键的。

这种监督推理模型的方法,只能换来很微小的能力提升。相对它可能带来的隐患来说,这种提升是不值得的。所以,在我们对思维链优化方法有更深入的理解之前,不要对其施加过于强烈的监督。

相关内容 查看全部