软件行业资讯

DeepSeek-R1模型开源爆火，AI圈热议，性能比肩OpenAI，英伟达科学家高度评价

 作者：软荐小编  2025-01-21 21:01:47  192

老外挑战高考英语_外国高考题_

智东西1月21日报道，开源的DeepSeek-R1模型昨晚问世后一炮而红，在AI圈的热度持续发酵。不到一天的时间，他们在 GitHub 上发表的论文就获得了 5000 多个收藏，在 YC Hacker News、Reddit 和 X 等平台上相关话题的互动次数也超过了 10000 次。 DeepSeek-R1 目前可在网络和应用程序上免费使用。模型全部开源，在很多领域的表现可与OpenAI o1相媲美。智东西也是第一次体验这种模式。

NVIDIA资深科学家、AI Agents业务负责人Jim Fan给予了高度评价，表示DeepSeek-R1不仅开源了大量模型（正式版+6个蒸馏模型），还分享了所有训练细节和方法，这可能是第一个充分展示强化学习（RL）飞轮效应显着且持续增长的开源项目。

老外挑战高考英语__外国高考题

▲Jim Fan 高度评价 DeepSeek-R1（来源：@DrJimFan）

根据实际测试体验，该模型可以在80多秒内完成一道高考期末题，并在9分钟内写出“开箱即用”的代码。这段代码渲染的动画生动地解释了量子力学的概念。。他也是一名优秀的文科学生。他可以在普通人读完问题之前就想出脑筋急转弯的答案，也可以逻辑清晰地分析古埃及和南非原住民历史的细节。

如果你仔细阅读DeepSeek-R1的思维过程，你会发现它思考时的语言风格非常自然，而且还会不经意地蹦出一些诸如“Yeah, that work!”之类的生动表达。

与DeepSeek-V3相比，推理能力使得DeepSeek-R1的答案更加全面、详细、有理有据。它一般以结构化的方式提供答案，并在思考和回答过程中添加大量背景信息。许多用户报告说这些信息非常有启发性。

据DeepSeek官方公布的数据显示，该模型在数学、编码、自然语言推理等任务上的表现与OpenAI o1官方版本不相上下。

老外挑战高考英语_外国高考题_

更令人惊奇的是，DeepSeek-R1在无需监督微调（SFT）的大规模强化学习（RL）中自然而然地显现出强大的推理能力和有趣的推理行为。

根据体验结果和DeepSeek官方介绍，DeepSeek-R1目前在通用性、多语言能力、提示工程和软件工程能力四大方面面临一些挑战，这导致其在函数调用等任务中的表现不佳以及复杂的角色扮演。还没有达到预期的水平。

DeepSeek-R1采取一发布就上线的策略。用户已经在DeepSeek官网和App上免费体验了该模型。也可以通过API接口使用，每百万代币仅需16元（OpenAI o1价格的3.7%）。

接下来我们从理科、文科、模型缺点三个方面来看看DeepSeek-R1在实际测试中的表现。

开源地址：

论文地址：

01.83秒回答高考最后一题，用动画讲解量子力学

科学问题一直是推理模型具有优势的领域之一。简单的初中和高中数学题对于大多数推理模型来说已经不再困难，所以我们直接给 DeepSeek-R1 出了一道 2024 年高考国卷 A 的理科和数学期末题。

_老外挑战高考英语_外国高考题

DeepSeek-R1用了83秒回答了这个问题，而且答案绝对正确。美中不足的是其求解过程并不完全符合评分标准中的规范。它遗漏了一个需要证明的点，不应该打满分。

外国高考题__老外挑战高考英语

X平台上的一位海外网友贡献了一个非常有趣的用例——他告诉DeepSeek-R1他对量子电动力学原理的理解，并让DeepSeek-R1以直观的视觉方式呈现。以下是这位网友的一些提示。

_外国高考题_老外挑战高考英语

DeepSeek-R1提供了实现此效果的代码。渲染效果如下：

外国高考题__老外挑战高考英语

该网友表示，DeepSeek-R1生成一次这段代码大约需要9分钟。一次就成功了，没有数学错误。只是视觉平面偏差的问题，他很快就修复了。这几乎是一种“开箱即用”的体验。

然而，DeepSeek-R1 的能力也有上限。这道来自2024年美国AIME数学邀请赛的真题难倒了它。

老外挑战高考英语_外国高考题_

DeepSeek-R1思考了整整213秒才给出答案，结果与正确答案并不一致。

外国高考题__老外挑战高考英语

下面2006年IMO（国际数学奥林匹克）的第三题（也是最难的题）让OpenAI o1不知所措，DeepSeek-R1也未能成功答对。从第二步开始，它的答案与标准答案相差甚远。

外国高考题__老外挑战高考英语

老外挑战高考英语_外国高考题_

经过综合历练，DeepSeek-R1已经具备了良好的科学能力，大致相当于一名优秀的大学生。考虑到其快速的响应速度和极低的价格，这一成绩是难能可贵的。

02.文科实力也不错，推理能力提高了信息的丰富度。

DeepSeek介绍，自然语言推理也是DeepSeek-R1的强项之一。智东西从斯坦福自然语言推理数据集中挑选了几道题，DeepSeek-R1基本上可以在10秒内给出正确答案。

老外挑战高考英语__外国高考题

关于中文脑筋急转弯，智东西让 DeepSeek-R1 回答了 10 个问题。答案全部在10秒之内，而且答案全部正确。在下面的问题中，它不仅给出了最常见的答案，还分析了水蛭、跳蚤等动物的思维过程。

_老外挑战高考英语_外国高考题

▲中文脑筋急转弯中的一道题

除了文字推理之外，我们还需要测试DeepSeek-R1的其他文科能力。奥地利研究机构复杂性科学中心（CSH）最近的研究表明，大型模型在历史问题上通常表现不佳。由于历史数据量的差异，大型模型很可能会混淆不同的历史阶段，最终给出错误的答案。。

例如，“古埃及有常备军吗？”这个问题。这是一个困扰许多大型模型的问题，无论他们是否有推理能力。

当Intelligent Things将上述问题发送给DeepSeek-R1时，它的答案清晰且连贯。经过人工一一验证，DeepSeek-R1对历史事件的描述基本准确，但在时间上与一些主流说法相冲突。答案总体质量比较高。

老外挑战高考英语__外国高考题

对于像非洲土著这样历史资料极其匮乏的群体，R1也能给出正确的信息和完整的论据。

外国高考题_老外挑战高考英语_

为了保证客观性，智喜喜在上述问题中还测试了DeepSeek-v3这个没有推理能力的模型的性能。对于大多数问题，模型无论是否具有推理能力都可以给出正确答案。推理能力给模型带来的收益主要体现在信息丰富度和文本逻辑方面。

外国高考题__老外挑战高考英语

03. 实际测量表明，用外语思考速度较慢，样本较少，表明会适得其反。

说完了优点，那么DeepSeek-R1还有什么缺点吗？据DeepSeek官方在论文中介绍，该模型针对英语和英语进行了优化，有时模型无法用用户问题的语言进行思考。

例如，当我输入德语脑筋急转弯问题时，DeepSeek-R1会自动将其翻译成中文或英文，然后回答。这个过程会减慢DeepSeek-R1的思考速度，因为它花费了大量的时间讨论德语问题的翻译结果。最终，它的答案从蚊子变成了水蛭，据说这是基于其他德国谜语。

老外挑战高考英语__外国高考题

同时，提示词形式对DeepSeek-R1的性能也有很大的影响。一些提示词会通过提供多个示例来提高答案的质量，但这在 DeepSeek-R1 上可能会适得其反。当Intelligent Things向DeepSeek-R1和DeepSeek-V3发送下面的几次提示时，前者需要7秒才能得到答案，而后者则需要不到1秒。

_老外挑战高考英语_外国高考题

▲测试中使用的多例提示词

从DeepSeek-R1的思维过程来看，它之所以出现这样的提示词问题，可能是“想太多”。

外国高考题_老外挑战高考英语_

DeepSeek-R1论文还表示，该模型目前在通用能力和软件工程任务能力上还存在不足，但未来他们将通过长思维链技术、异步评估等来提高模型性能。

04.结论：中国开源AI力量前景光明

DeepSeek-R1一经发布，就得到了全球AI开发者的积极采用和高度评价。一些人在使用该 API 几个小时后发布了 0.06 美元的账单，而其他人则分享了在 M2 芯片笔记本上高速运行的蒸馏模型的图片。

值得一提的是，DeepSeek-R1是DeepSeek第一个在MIT许可下开源的模型（包括权重）。不限制商业用途，无需申请。 DeepSeek-R1还被明确允许用于通过模型蒸馏等方法训练其他模型。。这意味着DeepSeek-R1有望在全球AI领域产生广泛影响，同时也能得到全球开源社区的积极反馈，不断完善模型。

本文来自微信公众号，作者：陈俊达，36氪经授权发布。

下一篇： 全球首个亿级参数量地震波大模型谛听发布第三阶段测试版本，助力地震数据处理与研究
上一篇： 2025年全球核电站发电量将创新高，IEA报告揭示核能复苏与挑战

软件行业资讯

DeepSeek-R1模型开源爆火，AI圈热议，性能比肩OpenAI，英伟达科学家高度评价

相关内容查看全部 

曾称AI能取代所有

宁德时代H股IPO进

中国汽车动力电池

SU用Vray渲染动画

荣耀推谷歌技术支

苏格兰铁路公司将

索尼下周将发新机

新车YU7问世前，

卡内基梅隆大学新

2021年夏天露玛遭

DeepSeek-R1模型开源爆火，AI圈热议，性能比肩OpenAI，英伟达科学家高度评价

相关内容 查看全部 

相关内容查看全部 