发布信息

OpenAI最新o3和o4-mini模型幻觉问题严重,性能领先但挑战依旧

作者:软荐小编      2025-04-19 21:01:42     158

4 月 19 日消息来自 IT 之家。OpenAI 最新发布的 o3 模型以及 o4-mini 模型,在多个方面都展现出了在业内处于领先的水准。然而,这两款模型仍然没有办法摆脱“幻觉”这个问题,并且情况比以往发布的模型更为严重。

外媒 TechCrunch 今日有报道称,幻觉问题在生成式 AI 的发展进程中一直是最难攻克的挑战之一,即便目前性能最为出色的模型也难以完全规避。以往,每一代新模型在降低幻觉出现频率方面通常都会获得一些细微的进步,然而 o3 和 o4-mini 却改变了这一态势。

OpenAI 进行内部测试后发现,推理模型 o3 和 o4-mini 出现幻觉的频率,既超过了前代的推理模型 o1、o1-mini 和 o3-mini,又高于传统的“非推理”模型(IT 之家注:像 GPT-4o 这样的)。

OpenAI 在其发布的关于这两款模型的技术报告里表明:需要进一步展开研究,以弄清楚当推理模型的规模不断扩大时,幻觉问题为何会变得更加严重。报告指出,o3 和 o4-mini 在编程和数学等任务上的表现比以往要好。不过,因为模型输出的答案总量有所增加,所以它们既能做出更多准确的判断,也不可避免地会出现更多的错误甚至幻觉。

在 OpenAI 设计的内部基准测试 PersonQA 里,o3 在回答问题时出现幻觉的比例达到了 33%,这个比例几乎是前代推理模型 o1 的两倍,同时也是 o3-mini 的两倍,o1 和 o3-mini 的幻觉率分别为 16%和 14.8%。在同一测试中,o4-mini 的表现更为糟糕,其幻觉率高达 48%。

第三方机构 Transluce 进行的测试证实了这一问题。该非营利 AI 研究实验室发现,o3 在回答问题时常常会凭空编造出某些“过程操作”。比如,Transluce 曾观察到,o3 宣称自己在一台 2021 款 MacBook Pro 上“在 GPT 之外”运行了代码,并且将结果复制到了答案中。实际上,o3 拥有一部分工具的访问权限。然而,它并不具备执行这种操作的能力。

OpenAI 的发言人 Niko Felix 称:我们一直将解决幻觉问题作为重点研究方向。同时,我们也在持续努力,以提升模型的准确性与可靠性。

相关内容 查看全部