Scale AI创始人直言,美国政府需要调查和控制DeepSeek的AI芯片来源,才能获得领先优势。同时钛媒体AGI了解到,字节跳动、阿里巴巴、智浦、月之暗面等也在研究DeepSeek或寻求合作。
作者|林志佳
编辑|胡润峰
本文首发于钛媒体APP
众所周知,“东方神秘力量”DeepSeek最近受到中美两国科技圈的广泛关注,甚至被认为是大模型行业最大的“黑马”。
近日,中国AI大模型初创公司DeepSeek正式发布了DeepSeek-R1大模型,称其在数学、编码、自然语言推理等任务上的性能可与OpenAI o1正式版相媲美。
这一消息震惊了全球人工智能圈,也让美国人工智能公司的研究人员惊讶于中国已经赶上了美国的大规模模型技术。
一位meta工程师在美国科技公司员工社区Blind上写道,“meta的生成式AI部门陷入了恐慌。这一切都是从DeepSeek开始的,这使得Llama 4在基准测试中已经落后了。更糟糕的是:未知的中国人公司只有 550 万美元的培训预算,工程师们疯狂地剖析 DeepSeek 并试图复制他们能复制的一切。”
钛媒体AGI获悉,截至发稿,DeepSeek移动端在苹果应用商店排名第八,超越谷歌Gemini、微软Copilot等美国生成式AI产品,下载热度仅次于ChatGPT。与此同时,OpenAI、字节跳动、阿里巴巴统一、智浦、Kimi Dark Side of the Moon等国内外团队正在积极研究DeepSeek。 OpenAI 和字节跳动都在考虑与 DeepSeek 进行研究合作。
达沃斯世界经济论坛期间,Scale AI创始人Alexander Wang直言,DeepSeekAI大型模型的性能大致相当于美国最好的模型。他认为,过去十年美国在AI竞赛中可能领先于中国,但DeepSeek大型AI模型的发布可能“改变一切”。
Alexandr Wang 的另一段话值得细细品味:“DeepSeek 拥有大约 50,000 个 H100 计算卡,他们显然不能谈论它,因为这违反了美国实施的出口管制。我认为这是真的,我认为他们的影响力比其他人预期的要大,但未来也会受到芯片管制和出口管制的限制。”
Alexandr Wang暗示DeepSeek将受到美国监管。
DeepSeek创始人、领先量化私募公司Magic Square Quantity创始人梁文峰曾表示,DeepSeek面临的主要制约不是资金,而是高端算力的使用权。这些芯片对于训练高级人工智能模型至关重要。
随着AMD确认DeepSeek正在使用最强大的AI芯片之一MI300X进行大模型训练,中国AI如何突破栅栏,实现大模型训练将成为一个关键话题。
DeepSeek花了4年时间向美国硅谷打响这一枪
如果你在AI圈子,已经有很多介绍DeepSeek和梁文峰的文章了。总结起来有以下几点:
1、梁文峰是典型的“小镇问题解决者”:出生于广东五(三)线城市湛江。 17岁考入浙江大学,2010年毕业于浙江大学信息与通信工程专业,获硕士学位。
2、硕士毕业后,梁文峰带领团队探索利用机器学习等技术的全自动量化交易。 2010年,他与浙江大学校友创立了雅可比投资公司。
3、2015年6月,30岁的梁文峰与“欺骗股东的女下属”徐进共同创办杭州环方科技有限公司(环方量化、高飞)。他们依靠数学和人工智能进行量化投资,立志成为全球顶级的量化对冲基金。
4、2021年,欢芳量化管理规模已突破1000亿元。同年,梁文峰开始寻找“副业”,找到供应商购买数千张NVIDIA GPU显卡(当时他应该买的是RTX4090、A100、L40等),开发AI技术。到2023年,欢芳总量化管理规模已降至400亿元以上。
5、2023年初,Magic Square宣布拥有10000张NVIDIA A100 GPU卡。后来我们才知道,Magic Square当时撒了谎。当时它只拥有几千张A100卡,剩下的都是消耗卡、老显卡,还有通过云服务租用A100显卡。业内人士认为这是亿万富翁寻找新爱好的“古怪行为”。
6、DeepSeek热潮很大程度上与国内媒体所谓的“中国大模企超越美国”东起西落是分不开的。事实上,DeepSeek技术并没有罕见到“神奇”的程度。 DeepSeek V1 版本非常粗糙。当时它大量使用了GPT的开源数据,甚至一度调用了GPT-3.5 API接口。如今的“AI世界拼多多”本身就拥有强大的AI基础技术和团队AI技术能力。因此,媒体用DeepSeek的单一模型来证明中国的AI技术已经超越美国是一个逻辑错误。 DeepSeek是AI技术迭代的受益者,但这并不意味着它拥有超越OpenAI等领先者的技术能力。企业实力雄厚。
7、DeepSeek的例子进一步表明,AI技术并不存在明显的“护城河”,模型技术的超越已成为常态,而“六小虎”并不是唯一占据领先地位的。然而,AI算力的增长以及长期的模型迭代能否真正超越OpenAI,是决定大型AI模型发展的关键因素。
8、DeepSeek不募集资金,短期内无意上市。良好的现金流促使DeepSeek招募了大量的AI研究人才,形成了所谓的“研究院”氛围。它只负责前沿,不负责业务。该团队甚至非常了解基础设施和芯片原理。此外,他还带来了对冲基金行业最优秀的团队加入DeepSeek。
正如图灵奖得主、meta AI 首席科学家 Yann LeCun 所说,“对于那些在看到 DeepSeek 的表现后认为‘中国在人工智能领域超越美国’的人来说,你的解读是错误的。正确的解读应该是,‘开放的人工智能’”源模型正在超越专有模型”。
事实上,从购买数千块GPU构建AI算力开始,DeepSeek的大模型超越OpenAI用了4年时间。
去年12月底,DeepSeek发布的DeepSeek-V3开源基础模型性能与GPT-4o、Claude Sonnet 3.5等顶级模型相近,但训练成本极低。整个训练在2048个NVIDIA H800 GPU集群上完成,成本仅约557.6万美元,不到训练其他顶级模型成本的十分之一。
GPT-4o等模型的训练成本约为1亿美元。它在至少10,000个GPU的计算集群上进行训练,并使用性能优越的H100 GPU。例如,去年发布的同为顶级大型模型的 Llama 3.1 在训练过程中使用了 16,384 个 H100 GPU,消耗的计算资源是 DeepSeek-V3 的 11 倍,成本超过 6000 万美元。
今天,虽然 DeepSeek 尚未公布训练推理模型 R1 的完整成本,但已公布了 API 的定价,每百万输入代币 1 元至 4 元,每百万输出代币 16 元不等。这笔费用大约是 OpenAI o1 运营成本的三十分之一。
在成本进一步降低的同时,DeepSeek R1的技术要点在于其创新的训练方法——DeepSeek-R1-Zero路线,直接将强化学习(RL)应用到基础模型上,而不依赖监督微调(SFT)和现有模型。标记数据。通过建立简单的精度奖励和格式要求规则,DeepSeek R1实现自我进化,在无监督数据的情况下获得强大的推理能力。在 AIME 2024 基准测试中,DeepSeek R1-Zero 表现出了高达 86.7% 的准确率,证明了直接强化学习在训练高级推理模型方面的有效性。
艾伦人工智能研究所科学家内森·兰伯特表示,R1论文是推理模型研究不确定性的一个重要转折点,因为到目前为止,AI推理模型一直是工业研究的重要组成部分。领域,但缺乏开创性论文。
据中山大学集成电路学院助理教授王美琪介绍,直接强化学习方法结合一系列工程优化技术(如简化奖惩模型设计等) DeepSeek团队在多版本模型迭代方面有效降低了大型模型的复杂度。培训费用。直接强化学习避免了大量的人工数据标注工作,同时奖励和惩罚模型的简化设计减少了对计算资源的需求。
“DeepSeek 的运营方式与早期的 DeepMind 类似,”一位人工智能投资者表示,纯粹专注于研究和工程,而不是商业化。
NVIDIA 高级研究科学家 Jim Fan 直言,“DeepSeek 是今年开源大语言模型领域最大的黑马。”
算力需求对于大型模型资源来说仍然是一个“困境”,美国出口管制的影响也不小。
对于DeepSeek,英国《自然》杂志认为,尽管美国对中国实施半导体出口管制,中国企业还是成功制造了DeepSeek R1。但西雅图人工智能研究员 Francois Chollet 认为,“资源的高效利用比纯粹的计算规模更重要”。
梁文峰此前也指出,对于DeepSeek来说,拥有更高算力的先进AI芯片对于训练先进的AI模型至关重要。
今天,Alexander Wang直言美国政府需要对DeepSeek的AI芯片进行调查和监管,以取得领先优势。
Alexandr Wang 出生于 1997 年,19 岁从 MIT 退学,他创办的 AI 公司 Scale AI 估值超百亿美元,曾获得 Y Combinator、NVIDIA、AMD Venture 的融资Capital、Amazon、meta等。大型科技公司投资,公司为OpenAI、Google、meta等提供训练数据。
此前,Alexandr Wang 发表文章表达了对中国人工智能追赶美国的担忧。他认为,DeepSeek-V3的发布告诉外界,当美国人在休息时,中国人正在努力并追赶更便宜、更快、更强的产品。
OpenAI首席财务官Sarah Friar也认为,中美之间的AI竞争并不是简单的口水战。这是一场真正的竞争,双方都在这个领域投入巨资。 “我们看到了特朗普政府无论是从经济角度还是从监管和商业竞争角度积极参与的意愿。我们期待着开始实质性合作。”
当前,美国出口管制已成为影响中国人工智能产业发展的关键因素之一。
北京时间1月15日晚,美国商务部工业与安全局(BIS)修订《出口管理条例》(EAR),分两批共将25家中国实体列入实体清单,其中9家芝浦的实体。实体等
这是首家被美国列入“实体清单”的中国大型AI模型公司。
对此,智浦发布声明称,“美国商务部工业与安全局(BIS)计划将智浦及其子公司列入出口管制实体清单。这一决定缺乏事实依据,我们强烈反对。”鉴于智普掌握全链路大模型核心技术,被列入实体清单不会对智普有能力产生任何影响,将更加专注于提供世界一流的大模型技术,产品和服务给我们同时,公司将继续参与全球人工智能竞争,坚持最高的安全标准和公平性原则,推动人工智能技术的发展。”
此前,旷视、依图、云从、摩尔线程等一大批AI公司被列入美国“实体清单”,这对一些AI软件公司造成了一定影响——他们无法再训练万亿规模模型。
但DeepSeek、字节跳动等中国企业的出现及其在AI领域的发力,让美国认识到管控并不能阻止中国对标OpenAI、继续推进AI技术领先地位。
《福布斯》发文称,DeepSeek让世界认识到“中国并没有退出这场(人工智能)竞争”。
“如果最好的开源技术来自中国,美国开发者将基于这些技术构建他们的系统。从长远来看,这可能使中国成为人工智能的研发中心。” 《纽约时报》称。
然而,DeepSeek仍然面临竞争对手囤积大量算力的挑战。本周,特朗普宣布 OpenAI、甲骨文和日本软银集团将共同创建一家新的 5000 亿美元投资公司“Stargate”,立即投资至少 1000 亿美元用于美国的人工智能基础设施。与此同时,马斯克的 xAI 也在大规模扩展其超级计算机,以容纳超过 100 万个 GPU,以帮助训练其 Grok AI 模型。
这时,我想起了百度创始人兼CEO李彦宏的话:“开源模式会越来越落后”。
现在看来,DeepSeek证明了开源并没有落后,甚至为中国在AI领域超越美国的目标带来了更多希望。不过,DeepSeek是否会面临美国政府的针对性限制,最终导致模型训练和算力受到限制,还存在巨大的不确定性。
“目前,DeepSeek 拥有中国最大的先进计算集群之一。”梁文峰的商业伙伴表示。 “他们现在有足够的资源能力,但不会太久。”
(本文首发于钛媒体App)