发布信息

DeepSeek-R1-Zero方法在多模态推理中的「啊哈时刻」:AI视觉推理的突破性成就

作者:软荐小编      2025-03-06 09:02:12     162

刚刚,我们在未经过监督微调的 2B 模型上,看到了基于 DeepSeek-R1-Zero 方法的视觉推理所出现的“啊哈时刻”!

这一成就,再次让AI社区轰动。

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_

博客地址:

开源项目:

DeepSeek-R1 具有独特的推理能力,它能否成功地扩展到多模态推理领域呢?

UCLA 等机构的研究者发现,目前已经有许多研究试图复现 DeepSeek-R1。然而,这些研究大多遇到了一个难点,即很难复现出 R1 所展现出的回答长度增加以及思考模式。

幸运的是,他们成功了。多模态的“啊哈时刻”如同 DeepSeek-R1 论文所描述的那样出现了,模型回答中涌现出了自我反思能力。

他们成为了全球首个在多模态推理中成功产生了“啊哈时刻”涌现现象并且回答长度增加的团队,同时仅使用了一个未经过监督微调的 2B 模型。

他们还发现:更长的推理过程会让以视觉为中心的任务受益很多。

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_

图 1 展示了 VisualThinker-R1-Zero 在 Qwen2-VL 基础模型上的训练动态变化情况。

研究者最初观察到回答长度下降,原因是基础模型倾向于生成 HTML 代码。通过强化学习,这种行为很快被抑制住了,接着回答长度开始有规律地增加。之后,多模态的“啊哈时刻”出现了。之后,回答长度与基准准确率之间呈现出一致的正相关关系。

研究者首先以 Qwen2-VL-2B 基础模型为起点,接着直接在 SAT 数据集上展开强化学习的操作。

在没有任何 SFT 的情形下,模型于 CVBench 上达成了 59.47%的准确率。此准确率比基础模型高出约 30%,比经过 SFT 的模型高出约 2%。并且,该模型显著超越了指令微调模型,而指令微调模型的训练数据明显更多。

现在,研究者在 GitHub 上开源了训练代码。同时,研究者还发布了关于回答长度的研究发现。他们希望这些能加速 AI 社区未来对多模态推理的研究。

DeepSeek-R1的关键特征

DeepSeek-R1 已证明,强化学习能够在不存在任何监督推理数据的情形下提升模型的推理能力。

这种成功背后,究竟包含着哪些关键特征?

研究者仔细地对这些特征进行了总结,接着将其与自己的模型以及其他多模态复现模型做了比较。

在这个过程里,他们着重强调了两种明显的现象。一种现象是“啊哈时刻”;另一种现象是响应长度在持续增长。

模型在训练过程中,一方面开始自主开发出高级的问题解决策略;另一方面表明,模型在训练过程中自然而然地学会了借助更长的思考时间去解决推理任务。

总之,如果复现模型没有展现出 DeepSeek-R1 的这些关键特征,那么对于是否成功复现这件事,就值得产生疑问。

_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

DeepSeek-R1与多模态复现模型的比较

多模态的「啊哈时刻」

在 DeepSeek-R1-Zero 的训练过程中,观察到了一个特别吸引人的现象,那就是“啊哈时刻”的出现。

. . .

等等,等等。等一下。我在这里发现了一个啊哈时刻。

让我们重新开始一步一步地进行评估,从而确定正确的计算结果是否能够……

. . .

这个“啊哈时刻”表明,DeepSeek-R1-Zero 有这样的能力:能够自发地构建推理策略,还能够重新审视自己的初始方法,以此来提升自己的推理能力。

研究者在对以视觉为中心的推理任务进行强化学习训练时,观察到了类似行为,如下图所示。

模型具备一种涌现能力,它可以对图像进行重新审视,并且能够纠正自身的错误。

. . .

所以,门口上方没有带白色毯子的深棕色木床。让我们重新开始逐一评估,不过等等!我想到了别的可能性。

也许它只是高于门口,但又略低于门框顶部。

. . .

这种多模态的“啊哈时刻”,并且响应长度在持续增长,这证明了一个令人兴奋的事实,那就是在视觉任务里,RL 拥有解锁全新层次智能的巨大潜力。

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_

多模态大语言模型上的R1-Zero训练方法

所以,VisualThinker-R1-Zero 究竟是如何做到的呢?它通过直接对未经 SFT 的基础模型进行 RL 训练,进而实现了“啊哈时刻”的涌现。

目前将 RL 用于微调视觉模型的项目,都没有复制出 DeepSeek-R1 的关键特征。

这项工作的研究者另辟蹊径,他们发现了一种被忽略的方法,那就是直接对没有经过监督微调的模型运用强化学习。

这种训练设置成为了在多模态推理中实现真正“啊哈时刻”的关键。

研究者们遵循 DeepSeek-R1 的做法,采取了一种 RL 方法,这种方法很简洁优雅,并且避免使用奖励模型,也不使用类似于蒙特卡洛树搜索(MCTS)的技术。

他们具体采用的是 GRPO 算法,同时使用基于规则的奖励函数,依据响应的格式以及正确性进行评估。

团队的实现是以 DeepSeek-R1 的报告为基础的。初步实验显示,这种奖励函数能够促使策略模型快速地收敛,并且能够生成符合期望格式的响应。

实验

研究团队在实验中对 Qwen2-VL-2B 基础模型进行了微调,然后在 CV-Bench 上对其性能进行了评估,CV-Bench 是一个以视觉为中心的基准测试套件。

训练过程使用了约 12,000 个查询,这些查询来自 SAT 训练数据集。该数据集的重点在于空间推理问题。

他们的做法与 DeepSeek-R1-Zero 相似,是直接在基础模型上应用强化学习,并且不会进行任何监督微调。

这种方法使性能比 Qwen2-VL-2B(基础模型)提升了约 30%;比 Qwen2-VL-2B-Instruct(指令微调模型)提升了约 5%;比 Qwen2-VL-2B SFT(基础+监督微调版)提升了约 2%的基准性能。

这表明视觉推理能够从 R1-Zero 训练中获得益处。强化学习在对多样化推理进行探索时,展现出了一种训练方法,这种训练方法更具可扩展性。

如下图 2 所示,主要结果为:R1 方法与基础模型相比取得了显著性能提升,且与指令微调模型相比也取得了显著性能提升。

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理__全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

该方法在指令微调模型上取得了显著的改进。

指令模型的早期实验与发现

很多研究者常常倾向于把强化学习直接应用到视觉指令模型上,以此来提升模型的性能。

然而,研究团队在早期实验里发现,对指令模型应用 GRPO 后,性能确实提高了。可是,这种方法却没有复现 DeepSeek-R1 报告中的观察结果和发现。

在此,他们也分享出了自己的失败案例。

不过,这也并不意味着这些方法就无法构建有效的视觉推理模型。

无实质内容的推理路径

他们最初尝试对指令微调模型应用 RL,这与先前研究类似。这种尝试提高了性能,但同时也使得模型的响应降级为只是表面推理且没有实质内容,最终也没有给出答案。

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理__全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

问题:

拍摄这张照片的相机与盒子(红框标注)相比,哪个距离更近?拍摄这张照片的相机与桌子(蓝框标注)相比,哪个距离更近?

模型:

我要确定哪个物体距离相机更近,所以我会去测量从相机到每个物体的距离。

盒子

这表明模型能够借助 GRPO 提升性能,无需真正具备推理能力。

这样一个问题自然而然地产生了:针对视觉中心任务的强化学习,是否主要对模型的视觉处理能力进行了改善?

研究者们为了探究这一点,在 RL 过程中把视觉编码器固定住,也就是不更新其参数,以此来评估其影响。需要注意的是,以下结果不能直接与他们的主要结果进行比较,因为指令模型已经在数量明显更多的数据上进行了微调。

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_

模型在不同微调设置下,在 RL 训练期间于 CV-Bench 上的准确率情况。 模型于 CV-Bench 上,在不同微调设置下的 RL 训练期间的准确率。 不同微调设置下,模型在 CV-Bench 上进行 RL 训练期间的准确率。 模型在 CV-Bench 上的准确率,处于不同微调设置下的 RL 训练期间。 模型在 RL 训练期间于 CV-Bench 上的准确率,受不同微调设置影响。

下图 3 展示了强化学习训练过程中,在不同微调设置下响应长度的变化情况。横轴是训练步骤,纵轴为响应长度。图中对三种不同微调配置的模型进行了比较,分别是冻结大语言模型(绿色)、冻结视觉编码器(蓝色)以及全参数微调(红色)。

可以看到,响应长度在训练初期显著下降,之后逐渐趋于稳定。

然而,这三种基于 RL 的指令模型微调方法都提升了准确率。但它们并没有切实增强模型的推理能力。因为模型的响应较为简单,并且缺乏实质性的内容。

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理__全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

图 3 展示了在强化学习过程中,不同微调设置下回复长度随训练步骤变化的对比情况。

有趣的是,在视觉编码器被冻结的情况下,训练多模态大语言模型提升了性能,这一结果和研究者最初的假设不一样。

然而,模型的响应依然简短且缺乏意义:

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理__全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

冻结大语言模型的强化学习实验

问题:

请对图像中物体之间的实际距离进行估计。摩托车(蓝框标注)与交通锥筒(红框标注)的距离和公交车(绿框标注)与交通锥筒(红框标注)的距离相比,哪个更近呢?

模型:

让我们来分析图像中物体之间的距离,目的是确定哪个物体与交通锥筒的距离更近。

摩托车

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_

冻结视觉编码器的强化学习实验

问题:

请估计图像中物体之间的实际距离。哪个物体与交通锥筒(红框标注)的距离更近,是摩托车(蓝框标注)还是公交车(绿框标注)?

模型:

我们需要分析图像中物体之间的距离,目的是确定哪个物体与交通锥筒(红框标注)距离更近。

摩托车

这一现象体现,还需开展更深入的研究,以便知晓这种性能改进的原因所在。

单纯奖励更长回答,能否提高模型性能?

研究团队探究了另一个问题,即回答长度本身是否为提升推理能力的关键因素?

他们设计了一项实验,目的是评估通过给予简单激励模型生成更长回答的奖励,能否提升其推理能力。他们对模型生成的每个额外 token 都给予了+0.001 的奖励。

然而,实验结果表明,单纯奖励回答长度并不能提高模型性能:

下图 4 展示了在指令微调模型上进行强化学习训练时,应用长度奖励这一过程中模型性能的变化情况。

可以看到,平均回答长度(红线)有显著的增长情况。同时,基准测试准确率(绿线)保持着相对稳定的状态。这就表明,更长的回答并不一定会带来更强的推理能力。

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_

图 4 展示了在经指令微调的模型上,应用基于长度奖励的强化学习训练过程时的性能表现。

模型很快就学会了利用长度奖励的漏洞,进而生成了很长但没有任何意义的错误回答。 模型迅速学会了钻长度奖励的空子,从而生成了极为冗长却毫无意义的错误回答。 模型很快便学会了借助长度奖励来行事,生成了很长很长但毫无意义的错误回答。 模型很快就懂得了钻长度奖励的空子,进而产出了极长却毫无意义的错误回答。 模型很快就掌握了钻长度奖励空子的技巧,生成了很长但没有意义的错误回答。

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_

问题:

考虑图像中长颈鹿的位置(以红框标注)以及人物的位置,长颈鹿相对于人物处于何种位置?

模型:

- 长颈鹿(红框标注)位于图像前景。

- 人物在背景中,站在长颈鹿后方。

- 长颈鹿比人物更靠近观察者。

- 人物不在长颈鹿正上方。

- 人物不在长颈鹿正下方。

- 长颈鹿不在人物上方。

- 长颈鹿不在人物下方。

- 人物不在长颈鹿前面。

- 人物不在长颈鹿后面。

- 人物不在长颈鹿左侧。

- 人物不在长颈鹿右侧。

- [重复内容直到达到最大token数限制]

这一结果显示,仅仅依靠长度来给予奖励的机制,无法有效地提升模型的性能。

研究者建议,未来的研究能够去探索并设计出更优良的长度奖励机制,这样做是为了鼓励模型生成具有意义的推理步骤。

在后续的研究里,他们会去探索响应长度和多模态推理之间的关系;会去探索泛化能力与记忆能力的对比;还会去探索 R1 方法在何时是有效的以及它的工作原理。

未来计划

进一步分析多模态推理中响应长度的作用

利用经人工筛选的推理路径进行监督微调,以此来复现 R1 方法。

作者介绍

Hengguang Zhou

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理__全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

Hengguang Zhou 是加州大学洛杉矶分校(UCLA)的一年级研究生。他同时还是 TurningPoint AI 项目的负责人。这个项目由 Ruochen Wang 和 Cho-Jui Hsieh 教授进行指导。

他的研究主要集中在多模态大型语言模型的安全性方面。在 LLM 出现之前,他具备从事 3D 计算机视觉工作的经验,也有从事人机交互(HCI)方面的工作经验,还拥有从事视觉丰富的文档理解方面工作的经验。

他在多伦多大学计算机科学获得学士学位。

Xirui Li

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_

Xirui Li 是在加州大学洛杉矶分校(UCLA)就读的博士研究生。其研究的重点在于可信 AI 领域,尤其侧重于基础模型(LLMs/VLMs)的可控性以及解释性方面。

在大语言模型兴起之前,他的研究方向是目标检测以及视觉解释技术。他不仅专注于学术研究,还对创业机会抱有浓厚的兴趣。

他目前是 TurningPoint AI 的成员。TurningPoint AI 是一个由多个实验室联合组建的 AIGC 研究合作组织。该组织专注于多模态 AI 智能体的研究。它由 Dr. Ruochen Wang 和 Cho-Jui Hsieh 教授指导。

他获得了慕尼黑工业大学的电气与计算机工程学士学位。在这期间,在 Hao Shen 博士和 Tianming Qiu 博士的指导下,他完成了一篇关于 Transformer 目标检测可解释性的论文。

Ruochen Wang

_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

Ruochen Wang 在 OpenAI 进行多模态方面的研究工作。当下,他对风险投资以及创业怀有浓厚的兴趣。

他获得了密歇根大学的计算机科学和统计学学士学位,并且是以最高荣誉毕业的。他还在加州大学洛杉矶分校取得了计算机科学硕士学位。同时,他在加州大学洛杉矶分校获得了计算机科学博士学位,在这期间,他创立了 TurningPoint AI 研究团队并且担任领导职务。

他与谷歌研究有合作关系,同时也与 DeepMind 有合作关系。并且他以第一作者的身份,获得了 ICLR 优秀论文奖。

Minhao Cheng

_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

Minhao Cheng 为宾夕法尼亚州立大学信息科学与技术学院的助理教授。其目前的研究兴趣主要集中在机器学习领域,并且特别注重可信机器学习以及 AutoML 方面。

此前,他曾在香港科技大学担任计算机科学与工程助理教授。

他的导师是 Cho-Jui Hsieh 教授。

Tianyi Zhou

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理_

Tianyi Zhou 是马里兰大学帕克分校计算机科学领域的终身制助理教授,同时也是 UMIACS 和 AIM 的终身制助理教授。目前,其研究兴趣涵盖机器学习、优化以及自然语言处理。

2021 年到 2022 年期间,他担任了谷歌的访问研究科学家。他在这期间接受了 Boqing Gong 和 Ming-Hsuan Yang 教授的指导。

他获得了华盛顿大学的计算机科学博士学位,是 Jeff A. Bilmes 教授所领导的 MELODI 实验室的一员。他曾在悉尼科技大学(UTS)担任研究助理,也在南洋理工大学担任过研究助理,并且与 Dacheng Tao(陶大程)教授有过合作。

他曾在雅虎实验室担任研究实习生,有 Hua Ouyang 博士(来自苹果)和 Yi Chang 教授(来自吉林大学)对其进行指导。同时,他还曾在微软研究院实习,由 Lin Xiao 博士(来自 meta AI)进行指导。

Cho-Jui Hsieh

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理__全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

Cho-Jui Hsieh在加州大学洛杉矶分校(UCLA)担任计算机科学系的副教授一职。

他的研究兴趣在于开发针对大规模机器学习问题的新算法与优化技术。当下,正全力投入到新机器学习模型的开发之中,同时也在对(深度学习)模型的大小、训练速度、预测速度以及鲁棒性进行改进。

他之前在加州大学戴维斯分校(UC Davis)的计算机科学和统计学系担任过助理教授,时间长达三年。从 2018 年夏天开始,他在谷歌公司担任访问学者。

他于德克萨斯大学奥斯汀分校取得博士学位,其导师是 Inderjit Dhillon 教授。同时,他在台岛大学获得了硕士学位,导师为 Chih-Jen Lin 教授。

参考资料:

相关内容 查看全部