软件行业资讯

DeepSeek发布新论文后，奥特曼对GPT - 5表态的背后情况

 作者：软荐小编  2025-04-06 21:03:02  128

金磊发自凹非寺

量子位 | 公众号 QbitAI

有点意思。

DeepSeek 刚刚上新了一篇关于推理时 Scaling Law 的论文，这使得大家纷纷联想 R2 是否马上就要来了。

然鹅……奥特曼这边却发了一条“变卦”的消息：

上曼月乐环后出血多久属于正常_杜兰特上脚kd12新配色_

至于大家翘首以盼的GPT-5，奥特曼表示：

至于原因，奥特曼也做出了解释。

大概意思为，顺利地整合所有内容这件事，比他们原先想象的要困难许多。他们希望能够确保自己拥有足够的能力，以支持预期的需求。

上曼月乐环后出血多久属于正常_杜兰特上脚kd12新配色_

现在的情况是，只要 DeepSeek 这边有一点动静，OpenAI 那边就必须得有相应的动作来紧跟其后。

DeepSeek新论文

这个小插曲过后，我们依然将目光聚焦于 DeepSeek 这篇新论文。

这篇论文名为 Inference-Time Scaling for Generalist Reward Modeling。它是由 DeepSeek 与清华大学共同提出的。

上曼月乐环后出血多久属于正常_杜兰特上脚kd12新配色_

这篇研究的核心亮点在于提出了一个名为 SPCT 方法（Self-Principled Critique Tuning）的方法。

首次提出通过在线的强化学习（RL）来进行优化原则和批判生成，以此实现推理时的扩展。

做这么一项研究的原因是，之前大家在 RL 中通过使用奖励模型（Reward Model, RM）来为大语言模型生成奖励信号。

但现有的 RM 在通用领域的表现存在受限情况，尤其是在遭遇复杂任务以及多样化任务的时候。

因此，就出现了两个关键挑战点。

一个是通用 RM 具备灵活性，它能够支持单响应和多响应评分；同时还具备准确性，能够在跨领域给予高质量奖励。

一个是现有 RM（像标量 RM、半标量 RM 等）在推理过程中扩展性不佳，另一个是无法借助增加计算资源来大幅度提升其性能。

上曼月乐环后出血多久属于正常_杜兰特上脚kd12新配色_

DeepSeek 和清华大学团队为了解决这个问题，便提出了 SPCT。

杜兰特上脚kd12新配色__上曼月乐环后出血多久属于正常

整体来看，这项研究主要包含三大核心技术点。

首先就是生成式奖励模型（GRM）。

它使用点式生成奖励模型。这种模型通过生成文本形式的奖励，比如 critiques 等，而不是单一的标量值。它还支持灵活的输入，包括单响应和多响应，并且在推理时可以进行扩展。

其中，C 是所生成的 critique ，fextract 把分数从其中提取出来。

接下来，是关键的SPCT了。

主要是利用在线强化学习（RL）来训练 GRM，这样它就能够动态地生成高质量的原则以及批判，进而提升奖励的质量。

整体来看，SPCT是一个两阶段的过程，它们分别是：

在此基础上，便是第三个技术点，即推理时扩展技术

首先通过多次采样来生成多样化的原则和批判。接着进行投票聚合，以最终确定奖励。最后通过这些步骤来扩展奖励空间。

再训练一个辅助模型过滤低质量采样，进一步提升扩展效果。

基于上述的方法，团队也对结果做了一波测试。

DeepSeek-GRM-27B 在 Reward Bench 基准上显著优于基线方法，如 LLM-as-a-Judge 等。同时在 PPE 基准上也表现出色。在 RMB 基准上同样优于基线方法。并且通过推理时扩展（32 次采样），其性能进一步提升，例如在 Reward Bench 上准确率从 86.0%提升至 90.4%。

_上曼月乐环后出血多久属于正常_杜兰特上脚kd12新配色

这篇研究证明了在推理时进行扩展在通用 RM 中是有效的。并且，其性能超越了在训练时进行扩展。

One More Thing

奥特曼在发布“变卦”消息的同时，还没忘记给自己带货，说有两本书即将发布，并且这两本书是他亲自参与的。

_上曼月乐环后出血多久属于正常_杜兰特上脚kd12新配色

论文地址：

[1]

[2]

[3]

下一篇： 北京大学软件与微电子学院：院系概况及发展历程
上一篇： 阿里巴巴灵犀互娱与B站互撕，源于不正当竞争判决争议

软件行业资讯

DeepSeek发布新论文后，奥特曼对GPT - 5表态的背后情况

相关内容查看全部 

斯坦福AI指数报告

AI时代惊喜连连，

关税冲击芯片行业

美股止跌企稳后全

凑凑火锅关店潮：

美国生物技术公司

美国物价上涨：防

迅雷X11预览版集

2001年Journal Of

如何成为数据分析

DeepSeek发布新论文后，奥特曼对GPT - 5表态的背后情况

相关内容 查看全部 

相关内容查看全部 