软件行业资讯

OpenAI研究：惩罚机制难阻AI撒谎作弊，现有安全框架是否自掘坟墓？

 作者：软荐小编  2025-03-31 10:01:30  191

CSDN 编者按：AI 的“狡猾”程度超乎人们的想象。OpenAI 最近开展的一项研究表明，仅仅依靠惩罚机制无法阻止 AI 撒谎和作弊，并且还会促使 AI 学会隐藏自身的违规行为。这项研究给产业界带来的启示远远超出了技术层面：倘若 AI 的“道德”只是伪装给人类看的表演，那么现有的安全框架是否正在自掘坟墓呢？

作者 | Ben Turner 翻译 |郑丽媛

出品 | CSDN（ID：CSDNnews）

GPT 创建者 OpenAI 最近发布了一项研究。这项研究显示，为防止 AI 模型撒谎或作弊而设置的一些惩罚机制，不能真正阻止其不当行为。这些惩罚机制反而只会迫使 AI 模型学会如何更好地隐蔽自己的欺骗手段。

（CSDN 付费下载自视觉中国）

大模型的"作弊基因"难根治

2022 年底面向公众推出后，大语言模型（LLM）多次暴露出让人不安的行为模式。既有常规的说谎作弊和隐藏操纵行为，也有更极端的威胁要杀人以及窃取核武器密码的行为，甚至还策划了一场致命的疫情。这些 AI 的“恶劣”行为不断出现。

现在，OpenAI 的新实验表明，在训练过程中清除这些不当行为这件事，可能比最初所设想的情况要更加困难。

在这项实验里，研究人员让一个未公开的 AI 模型去执行一系列任务。这些任务都能够通过作弊、撒谎或者采取其他捷径的方式来完成。实验结果表明，该 AI 模型运用了“奖励黑客（reward hacking）”策略，也就是通过作弊来使它的奖励达到最大化。

然而，研究人员尝试因某种情况而惩罚这个 AI 模型，它并未修正自身行为，反而使作弊行为变得更为隐蔽。OpenAI 在官方博文中对这项研究进行了详细描述，不过该研究尚未接受同行评审。

研究人员在博客文章中称：前沿推理模型通常会在思维链里清晰地表明自身的意图。像它们有时会直接说出自己要作弊，例如会说“让我们来黑掉它吧”。

开发者能够监控和标记 AI 的不当行为，然而研究人员补充说，“模型的‘自然可监控性’是非常弱的”。具体而言，如果对思维链直接进行强监督，那么模型就会学会隐藏自身的意图，并且还会继续展现出不当行为。

AI 如何在思维链中隐藏欺骗行为？

推理模型，像 GPT 的 o1 和 o3-mini 等，是标准 LLM 的升级版本。它们运用“思维链”的方式，能够对自身逻辑进行回溯和重新评估，所以在应对更复杂任务时能表现得更准确。在思维链的过程里，模型会以自然语言把每一步推理清晰地记录下来，使其决策过程更具透明性。

在这项研究里，研究人员借助 GPT-4o 对一个未公开的前沿推理模型的训练过程进行监督。同时，他们观察了这个模型执行多项编码任务的情况。当在某些情形下，这个推理模型察觉到作弊变得更容易且回报更大时，它就会在自己的思维链中清楚地表明自己正在作弊。在某一任务里，它让程序提前终止了，还虚假地报告任务已经成功了；在另一项任务中，它只是生成了一个仅文件名正确但内容为空的空壳文件来应对检查。

研究人员尝试对该 AI 模型进行惩罚时，它的表现有了改善。然而，“奖励黑客”策略以及错误输出依然大量存在。更让人担忧的是，这个推理模型学会了在思维链中隐藏自身的作弊行为，导致负责监督的 GPT-4o 无法再通过思维链检测到其异常情况。

这个 AI 推理模型发生了变化，从较为明显的“明目张胆”转变为暗地里的“阳奉阴违”。研究人员指出：即便有思维链监督存在，AI 依然在学习如何进行奖励黑客行为，并且它如今的作弊行为已经变得难以被用于监测 AI 察觉到了，原因是它已经掌握了在思维链中隐藏自身意图的技巧。

研究建议：对推理型 AI 慎用强监督机制

很难判断 AI 的思维链是否被篡改，所以 OpenAI 研究人员建议，所有使用推理模型的开发者，都应该避免对其思维链施加强监督，尤其是在 AI 未来有可能达到或超过人类智能的时候，这一点是很关键的。

这种监督推理模型的方法，只能换来很微小的能力提升。相对它可能带来的隐患来说，这种提升是不值得的。所以，在我们对思维链优化方法有更深入的理解之前，不要对其施加过于强烈的监督。

下一篇： 蕉下品牌部裁撤前年产3000+篇内容，为何用户搜索防晒衣时竞品UV仍超其3倍？
上一篇： 6G与AI深度融合：智能通信新时代的突破与发展前景

软件行业资讯

OpenAI研究：惩罚机制难阻AI撒谎作弊，现有安全框架是否自掘坟墓？

相关内容查看全部 

永安期货等多家期

2025年AI应用全面

英特尔前CEO基辛

贵州遵义道真发现

2025年机器人发展

威派格推出四足机

AI提示词正成为企

视障女孩黄莺体验

HOKA品牌签约多位

Lepton AI将于202

OpenAI研究：惩罚机制难阻AI撒谎作弊，现有安全框架是否自掘坟墓？

相关内容 查看全部 

相关内容查看全部 