发布信息

DeepSeek创造历史:OpenAI CEO承认错误,LeCun批评硅谷优越感,R1-Zero突破人类输入瓶颈

作者:软荐小编      2025-02-03 14:00:41     108

DeepSeek再次创造了历史。

实际上,OpenAI首席执行官Ultraman承认:“就开源/开放重量AI模型而言,我们一直站在历史上错误的一面。”

LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键__LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键

Lecun还发布了硅谷圆圈的常见疾病是一种错位的优势感。

高级阶段的症状是,小圈子可以垄断好主意。晚期的症状是其他人的创新是在作弊。

LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键_LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键_

DeepSeek的最大意义在哪里?

ARC奖的联合创始人Mike Knoop发布了一篇长文本摘要R1-Zero,打破了人类最终的瓶颈 - expert cot标签!一个例子是监督罚款(SFT)。

从R1-Zero到AGI,一切都与效率有关。

LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键_LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键_

另一个值得注意的观点是,与R1相比,R1-Zero具有更重要的研究价值。

这是因为R1-Zero完全依赖于增强学习(RL),并且不使用人类专家标记的监督和微调(SFT)。

这表明在某些领域,SFT并不是实现准确和清晰的婴儿床的必要条件,并且完全有可能通过纯RL方法获得广泛的推理能力。

LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键_LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键_

LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键__LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键

以下是对Mike Knoop的完整分析。

从那以后,推理计算的需求增加了

上周,DeepSeek发布了新的R1-Zero和R1“推理”系统,并且ARC-AGI-1基准测试的性能与O1系统O1系统相当。

R1-Zero,R1和O1(低计算模式)得分为15-20%,而GPT-4O仅为5% - 这是多年纯LLM缩放的峰值结果。

根据本周美国市场的数据,公众也开始了解纯LLM规模的局限性。

但是,大多数人没有意识到推理计算的需求即将增加。

2024年12月,OpenAI发布了新的突破系统O3。验证后,该系统在低计算功率模式下得分76%,在高计算模型中得分88%。

O3系统首次显示了计算机适应新的和未知问题的通用功能。

_LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键_LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键

尽管O3在ARC-AGI-1基准测试中取得了突破性的结果,但在主流媒体中很少报道这一重大技术事件,并且并未引起广泛关注。

在AI和计算机科学领域,这是一个非常重要的时刻,这些系统值得在深度研究中进行。

但是,由于O1和O3是关闭的,因此我们只能依靠投机进行分析。

幸运的是,借助Arc-Agi-1,现在(几乎)开源R1-Zero和R1,我们可以进一步加深对这一领域的理解。

这里的“几乎”是指DeepSeek的方法未从头开始宣布其模型重量。

特别值得注意的是,与R1相比,R1-Zero具有更重要的研究价值。

LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键_LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键_

R1-Zero比R1更值得分析:它消除了人类瓶颈

在对O1和O3的分析中,ARC奖团队推测了这些推理系统的工作原理。

他们的关键想法如下:

为特定问题生成思维链(COT)。

使用人工专家(“监督和罚款” SFT和自动化机器(“加强学习” RL)的组合来标记中间的COT步骤。

使用(2)训练数据培训的基本模型。

在测试期间,将根据此推理过程参考模型。

下图回顾了每种迭代采样模型的技术及其在ARC-AGI-1分数中的相关情况。

LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键__LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键

随着DeepSeek发表的新研究,ARC奖团队可以更好地验证自己的猜测。

一个关键的发现是,LLM推理系统在适应新颖性(并提高可靠性)方面得到了改善,主要沿以下三个维度:

将人工标记添加到COT过程模型的训练中,即SFT(监督罚款)。

使用COT搜索而不是线性推理(即,并联COT推理)。

总体COT采样(即平行推理的整个轨迹)。

(1)点受人工数据的限制,因此在该区域中可以使最大收益受益的推理系统。

例如,在O1系统上,MMLU专业法律类别的得分远低于数学和逻辑类别,这令人惊讶。

(2)和(3)的主要瓶颈是计算出的效率。

O1和O3都显示了在ARC-AGI-1基准测试中计算推理计算的计算数量,也就是说,他们在测试过程中使用的计算资源越多,基准准确性就越高。

同时,不同的计算方法将影响该曲线在X轴上的位置。

ARC奖团队认为,DeepSeek最有趣的方法是仅发布R1-Zero。 R1-Zero不使用SFT(即不依赖手动标记),并且完全依赖于增强学习(RL)。

R1-Zero和R1与ARC-AGI-1的分数一致,分别为14%和15%。

此外,DeepSeek发布的基准测试结果还表明,R1-Zero和R1的性能相似。 40%)。

在本文中,R1-Zero的作者指出:“ DeepSeek-R1-Zero在不良的可读性和混合语言方面面临着挑战,”这也在互联网上得到了证实。

但是,在ARC奖团队的测试中,他们很少发现R1-Zero在ARC-AGI-1上表现出不适,并且该测试任务类似于加强学习培训的系统和编程领域。

全面发现,ARC奖团队有以下结论:

在强烈验证的领域中,SFT(即人造专家的标签)不是准确,清晰的COT(思维链)推理的必要条件。

R1-Zero的训练过程可以通过RL优化,并自发地在令牌空间内构建特定的域语言(DSL,特定于域的语言)。

SFT是提高COT推理的跨域概括能力所必需的。

这符合直觉,因为语言也是推理DSL。就像程序一样,可以在一个字段中学习相同的“单词”并应用于另一个领域。

_LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键_LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键

纯RL方法尚未找到广泛共享的词汇系统,这可能成为未来研究的重要方向。

最后,R1-Zero显示出潜在的扩展 - 即使在训练数据收集阶段,它也完全消除了人造瓶颈。

可以肯定的是,DeepSeek的目标是挑战OpenAI的O3系统。

下一个关键的观察点是:SFT是否仍然是COT搜索和采样的必要条件,还是可以构建类似于“ R2-Zero”的系统,该系统继续提高相同的配对计算扩展程序的准确性。

根据R1-Zero的实验结果,该团队认为,在此假设的扩展版本中,SFT不是超过Arc-Agi-1的条件。

相关内容 查看全部