DeepSeek再次创造了历史。
实际上,OpenAI首席执行官Ultraman承认:“就开源/开放重量AI模型而言,我们一直站在历史上错误的一面。”
Lecun还发布了硅谷圆圈的常见疾病是一种错位的优势感。
高级阶段的症状是,小圈子可以垄断好主意。晚期的症状是其他人的创新是在作弊。
DeepSeek的最大意义在哪里?
ARC奖的联合创始人Mike Knoop发布了一篇长文本摘要R1-Zero,打破了人类最终的瓶颈 - expert cot标签!一个例子是监督罚款(SFT)。
从R1-Zero到AGI,一切都与效率有关。
另一个值得注意的观点是,与R1相比,R1-Zero具有更重要的研究价值。
这是因为R1-Zero完全依赖于增强学习(RL),并且不使用人类专家标记的监督和微调(SFT)。
这表明在某些领域,SFT并不是实现准确和清晰的婴儿床的必要条件,并且完全有可能通过纯RL方法获得广泛的推理能力。
以下是对Mike Knoop的完整分析。
从那以后,推理计算的需求增加了
上周,DeepSeek发布了新的R1-Zero和R1“推理”系统,并且ARC-AGI-1基准测试的性能与O1系统O1系统相当。
R1-Zero,R1和O1(低计算模式)得分为15-20%,而GPT-4O仅为5% - 这是多年纯LLM缩放的峰值结果。
根据本周美国市场的数据,公众也开始了解纯LLM规模的局限性。
但是,大多数人没有意识到推理计算的需求即将增加。
2024年12月,OpenAI发布了新的突破系统O3。验证后,该系统在低计算功率模式下得分76%,在高计算模型中得分88%。
O3系统首次显示了计算机适应新的和未知问题的通用功能。
尽管O3在ARC-AGI-1基准测试中取得了突破性的结果,但在主流媒体中很少报道这一重大技术事件,并且并未引起广泛关注。
在AI和计算机科学领域,这是一个非常重要的时刻,这些系统值得在深度研究中进行。
但是,由于O1和O3是关闭的,因此我们只能依靠投机进行分析。
幸运的是,借助Arc-Agi-1,现在(几乎)开源R1-Zero和R1,我们可以进一步加深对这一领域的理解。
这里的“几乎”是指DeepSeek的方法未从头开始宣布其模型重量。
特别值得注意的是,与R1相比,R1-Zero具有更重要的研究价值。
R1-Zero比R1更值得分析:它消除了人类瓶颈
在对O1和O3的分析中,ARC奖团队推测了这些推理系统的工作原理。
他们的关键想法如下:
为特定问题生成思维链(COT)。
使用人工专家(“监督和罚款” SFT和自动化机器(“加强学习” RL)的组合来标记中间的COT步骤。
使用(2)训练数据培训的基本模型。
在测试期间,将根据此推理过程参考模型。
下图回顾了每种迭代采样模型的技术及其在ARC-AGI-1分数中的相关情况。
随着DeepSeek发表的新研究,ARC奖团队可以更好地验证自己的猜测。
一个关键的发现是,LLM推理系统在适应新颖性(并提高可靠性)方面得到了改善,主要沿以下三个维度:
将人工标记添加到COT过程模型的训练中,即SFT(监督罚款)。
使用COT搜索而不是线性推理(即,并联COT推理)。
总体COT采样(即平行推理的整个轨迹)。
(1)点受人工数据的限制,因此在该区域中可以使最大收益受益的推理系统。
例如,在O1系统上,MMLU专业法律类别的得分远低于数学和逻辑类别,这令人惊讶。
(2)和(3)的主要瓶颈是计算出的效率。
O1和O3都显示了在ARC-AGI-1基准测试中计算推理计算的计算数量,也就是说,他们在测试过程中使用的计算资源越多,基准准确性就越高。
同时,不同的计算方法将影响该曲线在X轴上的位置。
ARC奖团队认为,DeepSeek最有趣的方法是仅发布R1-Zero。 R1-Zero不使用SFT(即不依赖手动标记),并且完全依赖于增强学习(RL)。
R1-Zero和R1与ARC-AGI-1的分数一致,分别为14%和15%。
此外,DeepSeek发布的基准测试结果还表明,R1-Zero和R1的性能相似。 40%)。
在本文中,R1-Zero的作者指出:“ DeepSeek-R1-Zero在不良的可读性和混合语言方面面临着挑战,”这也在互联网上得到了证实。
但是,在ARC奖团队的测试中,他们很少发现R1-Zero在ARC-AGI-1上表现出不适,并且该测试任务类似于加强学习培训的系统和编程领域。
全面发现,ARC奖团队有以下结论:
在强烈验证的领域中,SFT(即人造专家的标签)不是准确,清晰的COT(思维链)推理的必要条件。
R1-Zero的训练过程可以通过RL优化,并自发地在令牌空间内构建特定的域语言(DSL,特定于域的语言)。
SFT是提高COT推理的跨域概括能力所必需的。
这符合直觉,因为语言也是推理DSL。就像程序一样,可以在一个字段中学习相同的“单词”并应用于另一个领域。
纯RL方法尚未找到广泛共享的词汇系统,这可能成为未来研究的重要方向。
最后,R1-Zero显示出潜在的扩展 - 即使在训练数据收集阶段,它也完全消除了人造瓶颈。
可以肯定的是,DeepSeek的目标是挑战OpenAI的O3系统。
下一个关键的观察点是:SFT是否仍然是COT搜索和采样的必要条件,还是可以构建类似于“ R2-Zero”的系统,该系统继续提高相同的配对计算扩展程序的准确性。
根据R1-Zero的实验结果,该团队认为,在此假设的扩展版本中,SFT不是超过Arc-Agi-1的条件。