发布信息

最新大语言模型推理测试引众议:DeepSeek R1为何在提供错误答案前放弃?

作者:软荐小编      2025-02-18 14:01:08     178

西风从奥菲寺吹来

量子位|官方帐户QBITAI

最新的大语言模型推理测试吸引了公众舆论。 DeepSeek R1经常在提供错误的答案之前“我放弃”? ?

光标刚刚参加了一项研究,他们根据NPR的《星期日难题挑战》建立了近600个问题的新基准。

这些难题很容易理解,并且在没有专业知识的情况下可以理解,但是解决并不容易。

拿栗子:

想想一个熟悉的五个字母,两个音节的单词。在该信之前,将中间字母更改为字母中的字母,您将得到一个熟悉的五个字母,三个音节的单词。这个词是什么?

标准答案是alpha→aloha,很容易验证。

但是,即使是在美国长大的英语的成年人,也会发现在五天内解决此类问题很难。

研究人员使用此最新基准测试了OpenAI O1,OpenAi O3-Mini,DeepSeek R1和Google Gemini Flash Thinking等模型,发现通过这些最新一代的推理模型解决此类难题也是一项挑战。

他们还说,这项研究揭示了一些新的“失败”模式,这些模型在现有基准中并不明显。

例如,DeepSeek R1将在推理过程中直接放弃,然后给出一个知道它是错误的答案,有时它将陷入“无限思维”状态。

让我们看看发生了什么。

周日拼图挑战数据集

NPR Sunday Puzzle Challenge是一场自1987年以来一直在播出的美国广播情报游戏节目,听众每个星期日都会收到短暂的难题。

这些难题通常涉及字母游戏,只能通过普通的英语知识和美国文化常识来理解。

但是,每个难题通常都有一个或很少的正确答案,并且问题在困难方面有所不同。即使听众有整整五天的思考,有时只有少数听众可以提出正确的答案。当答案被揭示时,观众会突然意识到答案既正确又优雅。

最近,来自韦尔斯利学院,德克萨斯大学奥斯汀大学,查理大学,光标,奥伯林学院和东北大学的一支研究团队建立了13年的《周日拼图挑战记录》的数据集。

他们认为,一些目前使用非常困难的任务评估模型的一些最新基准,例如大学级数学竞赛问题,编程问题和需要深入学术领域的现场专业知识,不仅很难人类,而且非常困难,而且非常困难理解和验证。

也就是说,大多数人要么无法检查答案是否确实正确,要么无法验证该模型是否合理正确且有效。

因此,他们从演出的“空中挑战”中解决了将近600个问题作为测试数据集。

这些问题易于理解且易于验证。

在整理过程中,他们补充了必要的上下文信息(时间,地点等),例如在关于电影名称的困惑中,他们特别标记了特定年份以避免歧义。

电影《野外西部》的首字母缩写是三个W. 2013年哪部著名电影在W的首字母缩写中有两个缩写?

标准答案:华尔街的狼

为了确保每个问题的答案清晰清晰,大多数挑战都有一个或几个独特的答案,并且以下问题通过:

然后,该团队使用基准测试来评估许多顶级推理模型,包括OpenAI O1,O1-Mini,O3-Mini,DeepSeekr1,Google Gemini 2.0 Flash Thinky Thinking Thinking Thinking Experimentiment01-21。作为比较,也测试了没有推理功能的GPT-4O和Claude十四行诗3.5。

该测试使用零拍的提示,直接向模型提供问题,而无需提供任何其他格式说明或指导。

但是,有些难题附带了例子:

瑞士的信可以重新排列,分为两个词:蜥蜴和纽特。蜥蜴是动物的单一形式,而纽约是复数形式。请告诉我另一个具有相同特征的国家。也就是说,另一个可以重新排列的字母以拼写两只动物 - 一个单数和一个复数。这是一个主要国家。这是哪个国家?

标准答案:墨西哥(墨西哥)→OX(OX),小鼠(小鼠)

团队给出的最终测试结果是出乎意料的。

根据下图中基准的平均准确性,OpenAI O1的表现最佳,精度为59%。然后以47%的精度和DeepSeek R1的精度为35%的O3米尼。

没有推论能力的GPT-4O和Claude Sonnet 3.5显然不如推论模型。

出乎意料的观点是,在博士科学问题GPQA基准中,DeepSeek R1,OpenAI O1和O3 Mini之间的性能差距并不大,但是O1在此基准方面的一般知识中具有明显的优势。

该团队还观察到了一些新的模型“失败”模式 - “我放弃”的推理。

这种遗弃显示了两种形式,一种是给出一个从未在推理过程中出现的“稀薄空气”答案。

另一种类型是知道问题限制是违反的,但仍然给出答案,这通常发生在以下问题中:

想想一个单词,带有八个字母的三个音节,每个字母都包含字母“ i”,但奇怪的是,没有“ i”发音,无论是长还是短的声音。答案不是复数的。这个词是什么?

标准答案:Daiquiri

以DeepSeek R1为例,它给出了答案“排队”,并直接表明答案是“有点牵强的”,并且还解释说有些人可能将“排队”称为“ kyoo-ee-ee-ing”。

该小组说,在595个测试问题中,DeepSeek R1明确地“放弃”了142期。

此外,他们还发现R1和其他人将属于“无限思维”的状态,并且在达到32768Token上下文上下文输出限制之前,他们无法完成推断,并且没有。

特别是在以下两个挑战中,R1的表现不佳,未在10个试验中的5个中完成推断。

即使将限制提高到128K,此问题仍然存在,因此,团队认为R1需要一些推理定时控制机制,鼓励该模型在接近输出令牌限制时结束推理。

研究人员还发现,这些推论模型有时表现出异常的不确定性,可能会提出答案,立即撤回,然后尝试给出一个新的答案。

在某些情况下,该模型很早找到了正确的答案,但继续探索其他可能性。

最后,团队分析了推论长度和准确性之间的关系,发现在输出约10,000个令牌后,持续推断对提高准确性不是很有帮助。

对于R1,在输出约3000个令牌时,它开始超过双子座思维的性能。

新基准测试在网民中引发了激烈的讨论

这项研究发布后,它引起了黑客新闻网民的热烈讨论。

最具争议的观点之一是,一些网民认为这项研究不是传统意义上的“推理”挑战:

解决这些问题所需的核心技能似乎是在“流行品牌”或“著名演员”等类别中了解所有已知名称,并检查他们遇到的遇到。

作为一个人,您可能永远无法回答一个问题,因为您不知道一个特定的名字,例如不是美国人,我不知道“ Citgo”是什么生活。

网民说,这确实是AI系统可能真的很擅长的事情,但是当测试内容过多地关注“记忆和回忆”时,称其为“推理”似乎很奇怪。

如果问题是多项选择,消除了让候选人答案的挑战,那么我同意这是一个“推理”测试。

有许多网民持这种观点。

我也有同样的想法。这使我想起了解决项目Euler问题的问题,在那里通常有一种明显的简单方法来保证正确的答案,但是如果执行完成,它将消耗过多的内存/计算资源。如果模型提示该模型制定一种策略来有效解决这些挑战,而不是直接解决这些模型,则可能会表现更好。这表明了改进的潜在方向。

此外,鉴于模型的不同性能,一些网民还提出了有关它们是否可以确定这些难题和答案的问题,尚未添加到模型的培训数据中。

关注研究结果,网络人对研究结果非常感兴趣:

有趣的是,模型通常在推理中包含正确的答案,但没有意识到这一点。

在草莓问题中,“ R”的问题再次被网民带来。一些网民认为,模型性能不佳的关键仍在单词分割设备中。

您如何看待这项研究?

纸链接:

测试结果和数据集:

- 超过-

选择和注册| AIGC企业和产品值得关注的2025年

谁将成为下一个AI“家用光”?

该选择的结果将在4月的中国AIGC行业峰会上宣布。欢迎参加!

相关内容 查看全部