发布信息

DeepSeek-R1模型开源爆火,AI圈热议,性能比肩OpenAI,英伟达科学家高度评价

作者:软荐小编      2025-01-21 21:01:47     153

老外挑战高考英语_外国高考题_

智东西1月21日报道,开源的DeepSeek-R1模型昨晚问世后一炮而红,在AI圈的热度持续发酵。不到一天的时间,他们在 GitHub 上发表的论文就获得了 5000 多个收藏,在 YC Hacker News、Reddit 和 X 等平台上相关话题的互动次数也超过了 10000 次。 DeepSeek-R1 目前可在网络和应用程序上免费使用。模型全部开源,在很多领域的表现可与OpenAI o1相媲美。智东西也是第一次体验这种模式。

NVIDIA资深科学家、AI Agents业务负责人Jim Fan给予了高度评价,表示DeepSeek-R1不仅开源了大量模型(正式版+6个蒸馏模型),还分享了所有训练细节和方法,这可能是第一个充分展示强化学习(RL)飞轮效应显着且持续增长的开源项目。

老外挑战高考英语__外国高考题

▲Jim Fan 高度评价 DeepSeek-R1(来源:@DrJimFan)

根据实际测试体验,该模型可以在80多秒内完成一道高考期末题,并在9分钟内写出“开箱即用”的代码。这段代码渲染的动画生动地解释了量子力学的概念。 。他也是一名优秀的文科学生。他可以在普通人读完问题之前就想出脑筋急转弯的答案,也可以逻辑清晰地分析古埃及和南非原住民历史的细节。

如果你仔细阅读DeepSeek-R1的思维过程,你会发现它思考时的语言风格非常自然,而且还会不经意地蹦出一些诸如“Yeah, that work!”之类的生动表达。

与DeepSeek-V3相比,推理能力使得DeepSeek-R1的答案更加全面、详细、有理有据。它一般以结构化的方式提供答案,并在思考和回答过程中添加大量背景信息。许多用户报告说这些信息非常有启发性。

据DeepSeek官方公布的数据显示,该模型在数学、编码、自然语言推理等任务上的表现与OpenAI o1官方版本不相上下。

老外挑战高考英语_外国高考题_

更令人惊奇的是,DeepSeek-R1在无需监督微调(SFT)的大规模强化学习(RL)中自然而然地显现出强大的推理能力和有趣的推理行为。

根据体验结果和DeepSeek官方介绍,DeepSeek-R1目前在通用性、多语言能力、提示工程和软件工程能力四大方面面临一些挑战,这导致其在函数调用等任务中的表现不佳以及复杂的角色扮演。还没有达到预期的水平。

DeepSeek-R1采取一发布就上线的策略。用户已经在DeepSeek官网和App上免费体验了该模型。也可以通过API接口使用,每百万代币仅需16元(OpenAI o1价格的3.7%)。

接下来我们从理科、文科、模型缺点三个方面来看看DeepSeek-R1在实际测试中的表现。

开源地址:

论文地址:

01.83秒回答高考最后一题,用动画讲解量子力学

科学问题一直是推理模型具有优势的领域之一。简单的初中和高中数学题对于大多数推理模型来说已经不再困难,所以我们直接给 DeepSeek-R1 出了一道 2024 年高考国卷 A 的理科和数学期末题。

_老外挑战高考英语_外国高考题

DeepSeek-R1用了83秒回答了这个问题,而且答案绝对正确。美中不足的是其求解过程并不完全符合评分标准中的规范。它遗漏了一个需要证明的点,不应该打满分。

外国高考题__老外挑战高考英语

X平台上的一位海外网友贡献了一个非常有趣的用例——他告诉DeepSeek-R1他对量子电动力学原理的理解,并让DeepSeek-R1以直观的视觉方式呈现。以下是这位网友的一些提示。

_外国高考题_老外挑战高考英语

DeepSeek-R1提供了实现此效果的代码。渲染效果如下:

外国高考题__老外挑战高考英语

该网友表示,DeepSeek-R1生成一次这段代码大约需要9分钟。一次就成功了,没有数学错误。只是视觉平面偏差的问题,他很快就修复了。这几乎是一种“开箱即用”的体验。

然而,DeepSeek-R1 的能力也有上限。这道来自2024年美国AIME数学邀请赛的真题难倒了它。

老外挑战高考英语_外国高考题_

DeepSeek-R1思考了整整213秒才给出答案,结果与正确答案并不一致。

外国高考题__老外挑战高考英语

下面2006年IMO(国际数学奥林匹克)的第三题(也是最难的题)让OpenAI o1不知所措,DeepSeek-R1也未能成功答对。从第二步开始,它的答案与标准答案相差甚远。

外国高考题__老外挑战高考英语

老外挑战高考英语_外国高考题_

经过综合历练,DeepSeek-R1已经具备了良好的科学能力,大致相当于一名优秀的大学生。考虑到其快速的响应速度和极低的价格,这一成绩是难能可贵的。

02.文科实力也不错,推理能力提高了信息的丰富度。

DeepSeek介绍,自然语言推理也是DeepSeek-R1的强项之一。智东西从斯坦福自然语言推理数据集中挑选了几道题,DeepSeek-R1基本上可以在10秒内给出正确答案。

老外挑战高考英语__外国高考题

关于中文脑筋急转弯,智东西让 DeepSeek-R1 回答了 10 个问题。答案全部在10秒之内,而且答案全部正确。在下面的问题中,它不仅给出了最常见的答案,还分析了水蛭、跳蚤等动物的思维过程。

_老外挑战高考英语_外国高考题

▲中文脑筋急转弯中的一道题

除了文字推理之外,我们还需要测试DeepSeek-R1的其他文科能力。奥地利研究机构复杂性科学中心(CSH)最近的研究表明,大型模型在历史问题上通常表现不佳。由于历史数据量的差异,大型模型很可能会混淆不同的历史阶段,最终给出错误的答案。 。

例如,“古埃及有常备军吗?”这个问题。这是一个困扰许多大型模型的问题,无论他们是否有推理能力。

当Intelligent Things将上述问题发送给DeepSeek-R1时,它的答案清晰且连贯。经过人工一一验证,DeepSeek-R1对历史事件的描述基本准确,但在时间上与一些主流说法相冲突。答案总体质量比较高。

老外挑战高考英语__外国高考题

对于像非洲土著这样历史资料极其匮乏的群体,R1也能给出正确的信息和完整的论据。

外国高考题_老外挑战高考英语_

为了保证客观性,智喜喜在上述问题中还测试了DeepSeek-v3这个没有推理能力的模型的性能。对于大多数问题,模型无论是否具有推理能力都可以给出正确答案。推理能力给模型带来的收益主要体现在信息丰富度和文本逻辑方面。

外国高考题__老外挑战高考英语

03. 实际测量表明,用外语思考速度较慢,样本较少,表明会适得其反。

说完了优点,那么DeepSeek-R1还有什么缺点吗?据DeepSeek官方在论文中介绍,该模型针对英语和英语进行了优化,有时模型无法用用户问题的语言进行思考。

例如,当我输入德语脑筋急转弯问题时,DeepSeek-R1会自动将其翻译成中文或英文,然后回答。这个过程会减慢DeepSeek-R1的思考速度,因为它花费了大量的时间讨论德语问题的翻译结果。最终,它的答案从蚊子变成了水蛭,据说这是基于其他德国谜语。

老外挑战高考英语__外国高考题

同时,提示词形式对DeepSeek-R1的性能也有很大的影响。一些提示词会通过提供多个示例来提高答案的质量,但这在 DeepSeek-R1 上可能会适得其反。当Intelligent Things向DeepSeek-R1和DeepSeek-V3发送下面的几次提示时,前者需要7秒才能得到答案,而后者则需要不到1秒。

_老外挑战高考英语_外国高考题

▲测试中使用的多例提示词

从DeepSeek-R1的思维过程来看,它之所以出现这样的提示词问题,可能是“想太多”。

外国高考题_老外挑战高考英语_

DeepSeek-R1论文还表示,该模型目前在通用能力和软件工程任务能力上还存在不足,但未来他们将通过长思维链技术、异步评估等来提高模型性能。

04.结论:中国开源AI力量前景光明

DeepSeek-R1一经发布,就得到了全球AI开发者的积极采用和高度评价。一些人在使用该 API 几个小时后发布了 0.06 美元的账单,而其他人则分享了在 M2 芯片笔记本上高速运行的蒸馏模型的图片。

值得一提的是,DeepSeek-R1是DeepSeek第一个在MIT许可下开源的模型(包括权重)。不限制商业用途,无需申请。 DeepSeek-R1还被明确允许用于通过模型蒸馏等方法训练其他模型。 。这意味着DeepSeek-R1有望在全球AI领域产生广泛影响,同时也能得到全球开源社区的积极反馈,不断完善模型。

本文来自微信公众号,作者:陈俊达,36氪经授权发布。

相关内容 查看全部