软件行业资讯

DeepSeek创造历史：OpenAI CEO承认错误，LeCun批评硅谷优越感，R1-Zero突破人类输入瓶颈

 作者：软荐小编  2025-02-03 14:00:41  125

DeepSeek再次创造了历史。

实际上，OpenAI首席执行官Ultraman承认：“就开源/开放重量AI模型而言，我们一直站在历史上错误的一面。”

LeCun痛批硅谷傲慢病！圈内爆火长文：DeepSeek R1-Zero比R1更重要，成AGI破局关键__LeCun痛批硅谷傲慢病！圈内爆火长文：DeepSeek R1-Zero比R1更重要，成AGI破局关键

Lecun还发布了硅谷圆圈的常见疾病是一种错位的优势感。

高级阶段的症状是，小圈子可以垄断好主意。晚期的症状是其他人的创新是在作弊。

LeCun痛批硅谷傲慢病！圈内爆火长文：DeepSeek R1-Zero比R1更重要，成AGI破局关键_LeCun痛批硅谷傲慢病！圈内爆火长文：DeepSeek R1-Zero比R1更重要，成AGI破局关键_

DeepSeek的最大意义在哪里？

ARC奖的联合创始人Mike Knoop发布了一篇长文本摘要R1-Zero，打破了人类最终的瓶颈 - expert cot标签！一个例子是监督罚款（SFT）。

从R1-Zero到AGI，一切都与效率有关。

另一个值得注意的观点是，与R1相比，R1-Zero具有更重要的研究价值。

这是因为R1-Zero完全依赖于增强学习（RL），并且不使用人类专家标记的监督和微调（SFT）。

这表明在某些领域，SFT并不是实现准确和清晰的婴儿床的必要条件，并且完全有可能通过纯RL方法获得广泛的推理能力。

以下是对Mike Knoop的完整分析。

从那以后，推理计算的需求增加了

上周，DeepSeek发布了新的R1-Zero和R1“推理”系统，并且ARC-AGI-1基准测试的性能与O1系统O1系统相当。

R1-Zero，R1和O1（低计算模式）得分为15-20％，而GPT-4O仅为5％ - 这是多年纯LLM缩放的峰值结果。

根据本周美国市场的数据，公众也开始了解纯LLM规模的局限性。

但是，大多数人没有意识到推理计算的需求即将增加。

2024年12月，OpenAI发布了新的突破系统O3。验证后，该系统在低计算功率模式下得分76％，在高计算模型中得分88％。

O3系统首次显示了计算机适应新的和未知问题的通用功能。

_LeCun痛批硅谷傲慢病！圈内爆火长文：DeepSeek R1-Zero比R1更重要，成AGI破局关键_LeCun痛批硅谷傲慢病！圈内爆火长文：DeepSeek R1-Zero比R1更重要，成AGI破局关键

尽管O3在ARC-AGI-1基准测试中取得了突破性的结果，但在主流媒体中很少报道这一重大技术事件，并且并未引起广泛关注。

在AI和计算机科学领域，这是一个非常重要的时刻，这些系统值得在深度研究中进行。

但是，由于O1和O3是关闭的，因此我们只能依靠投机进行分析。

幸运的是，借助Arc-Agi-1，现在（几乎）开源R1-Zero和R1，我们可以进一步加深对这一领域的理解。

这里的“几乎”是指DeepSeek的方法未从头开始宣布其模型重量。

特别值得注意的是，与R1相比，R1-Zero具有更重要的研究价值。

R1-Zero比R1更值得分析：它消除了人类瓶颈

在对O1和O3的分析中，ARC奖团队推测了这些推理系统的工作原理。

他们的关键想法如下：

为特定问题生成思维链（COT）。

使用人工专家（“监督和罚款” SFT和自动化机器（“加强学习” RL）的组合来标记中间的COT步骤。

使用（2）训练数据培训的基本模型。

在测试期间，将根据此推理过程参考模型。

下图回顾了每种迭代采样模型的技术及其在ARC-AGI-1分数中的相关情况。

随着DeepSeek发表的新研究，ARC奖团队可以更好地验证自己的猜测。

一个关键的发现是，LLM推理系统在适应新颖性（并提高可靠性）方面得到了改善，主要沿以下三个维度：

将人工标记添加到COT过程模型的训练中，即SFT（监督罚款）。

使用COT搜索而不是线性推理（即，并联COT推理）。

总体COT采样（即平行推理的整个轨迹）。

（1）点受人工数据的限制，因此在该区域中可以使最大收益受益的推理系统。

例如，在O1系统上，MMLU专业法律类别的得分远低于数学和逻辑类别，这令人惊讶。

（2）和（3）的主要瓶颈是计算出的效率。

O1和O3都显示了在ARC-AGI-1基准测试中计算推理计算的计算数量，也就是说，他们在测试过程中使用的计算资源越多，基准准确性就越高。

同时，不同的计算方法将影响该曲线在X轴上的位置。

ARC奖团队认为，DeepSeek最有趣的方法是仅发布R1-Zero。 R1-Zero不使用SFT（即不依赖手动标记），并且完全依赖于增强学习（RL）。

R1-Zero和R1与ARC-AGI-1的分数一致，分别为14％和15％。

此外，DeepSeek发布的基准测试结果还表明，R1-Zero和R1的性能相似。 40％）。

在本文中，R1-Zero的作者指出：“ DeepSeek-R1-Zero在不良的可读性和混合语言方面面临着挑战，”这也在互联网上得到了证实。

但是，在ARC奖团队的测试中，他们很少发现R1-Zero在ARC-AGI-1上表现出不适，并且该测试任务类似于加强学习培训的系统和编程领域。

全面发现，ARC奖团队有以下结论：

在强烈验证的领域中，SFT（即人造专家的标签）不是准确，清晰的COT（思维链）推理的必要条件。

R1-Zero的训练过程可以通过RL优化，并自发地在令牌空间内构建特定的域语言（DSL，特定于域的语言）。

SFT是提高COT推理的跨域概括能力所必需的。

这符合直觉，因为语言也是推理DSL。就像程序一样，可以在一个字段中学习相同的“单词”并应用于另一个领域。

纯RL方法尚未找到广泛共享的词汇系统，这可能成为未来研究的重要方向。

最后，R1-Zero显示出潜在的扩展 - 即使在训练数据收集阶段，它也完全消除了人造瓶颈。

可以肯定的是，DeepSeek的目标是挑战OpenAI的O3系统。

下一个关键的观察点是：SFT是否仍然是COT搜索和采样的必要条件，还是可以构建类似于“ R2-Zero”的系统，该系统继续提高相同的配对计算扩展程序的准确性。

根据R1-Zero的实验结果，该团队认为，在此假设的扩展版本中，SFT不是超过Arc-Agi-1的条件。

下一篇： 春节期间DeepSeek创始人梁文锋家乡吴川米历岭村走红，村民热烈欢迎科技精英回乡
上一篇： Windows 11 Phone Link应用：近10个月未解绑手机问题，微软将如何解决？

软件行业资讯

DeepSeek创造历史：OpenAI CEO承认错误，LeCun批评硅谷优越感，R1-Zero突破人类输入瓶颈

相关内容查看全部 

OpenAI最新o3和o4

韩国科学家研发新

特斯拉Cybercab自

妙鸭相机AI写真火

2025年大模型应用

360织语升级为360

松应科技融资历程

快手2024年财报：

AI终端智能觉醒：

OpenAI O3和o4-mi

DeepSeek创造历史：OpenAI CEO承认错误，LeCun批评硅谷优越感，R1-Zero突破人类输入瓶颈

相关内容 查看全部 

相关内容查看全部 