发布信息

Semianalysis分析DeepSeek:模型性能、成本、人才及误解最全报告,杨立昆谈创新

作者:软荐小编      2025-02-03 21:02:39     175

这可能是关于迄今为止在海外的最全面的分析报告,迄今为止,来自半导体研究机构的半导体分析。

从大大降低培训培训成本的MLA模型,R1和O1等模型的性能比较以及人均工资为1000万的顶级人才,还指出,DeepSeek的当前成本估计为错误的。据推测它有大约50,000个料斗GPU ...

目前有很多关于DeepSeek的谣言,本文根据现有信息提供了更多客观的讨论。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_

图灵的赢家杨·夸,最近再次表达了DeepSeek的看法。他指出,硅谷的某些圈子的常见问题是通过在其他地方识别创新而作弊的。

为了在技术方面取得快速的进步,需要允许更多的才能参与并分享创新的结果。在DeepSeek的开源模型中,我们还看到了这个愿景。

报告原始文字:

Appso在此分析报告中编写了关键点:

据推测,DeepSeek有大约50,000个料斗GPU,对GPU的总投资超过5亿美元。

600万美元讨论的成本仅是指GPU在培训过程中的成本,这只是总模型成本的一部分。

DeepSeek团队目前约有150人,从北京大学等中国大学招募人才,年薪可以达到1000万

多潜在的关注(MLA)是DeepSeek明显降低推理成本的关键创新。它将每个查询所需的KV缓存降低约93.3%

在推理性能方面,R1与O1相当,O3的功能明显高于R1和O1。

DeepSeek风暴席卷了世界

在过去的一周中,DeepSeek已成为世界上唯一的热门话题。

目前,DeepSeek的日常工作(超过1900万)比Claude,困惑甚至双子座高得多。

但是,对于那些长期关注AI行业的人来说,这一消息并不新鲜。我们已经讨论了几个月的DeepSeek,我们对这家公司并不陌生,但是疯狂的炒作意外是意外的。半分析一直认为DeepSeek非常有才华,并且在美国更广泛的公众不在乎。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估__万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

当世界最终关注这家公司时,热情的舆论并没有完全反映其真实情况。

我们要强调的是,公众舆论已经改变。上个月,当缩放法律违反时,我们揭示了这个神话。现在,算法的改进太快了,在某种程度上对Nvidia和GPU不利。

现在每个人都讨论了D​​eepSeek如此之高,以至于我们不再需要更多的计算资源。由于模型的变化,产能过剩

尽管Jevon的悖论也超过了现实,但它更接近现实,因为这些模型已经引起了需求,并对H100和H200的价格产生了重大影响。

编者注:简单来说,杰维斯的悖论简单地说。在提高了一些资源的效率之后,尽管在使用过程中消费较少,但由于成本降低和更方便的使用,它可能会使人们使用更多。结果,总体消费增加。

50,000元霍珀GPU

幻想量化是中国对冲基金,也是第一个在其交易算法中采用AI的先驱。他们已经意识到AI的潜力和扩张能力的重要性很早,因此不断增加GPU的供应。

在使用数千个GPU群集进行模型实验之后,在引入任何出口限制之前,将幻想量化投资于10,000 A100 GPU。

投资退还了。随着幻想广场的不断改进,他们意识到,在2023年5月,“ DeepSeek”被剥夺了进一步的AI功能。

当时,由于对AI的兴趣不足(主要关注商业模式问题),幻想定量自我兑现的资金建立了公司。如今,幻想量化和DeepSeek经常共享资源,包括人力和计算资源。

如今,DeepSeek已经发展成为一个严肃而协调的项目,这绝不是许多媒体称之为“场外项目”。

我们认为,即使考虑出口控制因素,它们对GPU的总投资超过5亿美元。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_

我们认为他们有大约50,000个料斗GPU,但这与拥有50,​​000 H10 GPU的情况不同。

NVIDIA已根据不同的法规推出了不同版本的H100(例如H800和H20)。目前,中国模型公司只能使用H20。应该注意的是,H800的计算能力与H100相同,但其网络带宽较低。

我们认为,DeepSeek有大约10,000 h800和约10,000 h100。此外,他们还订购了更多的H20。在过去的9个月中,Nvidia为中国市场生产了10,000多个此类GPU。

这些GPU在幻想量化和DeepSeek之间共享,并且在地理上分布。它们用于交易,推理,培训和研究。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估__万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

我们的分析表明,DeepSeek的服务器资本支出约为16亿美元,其中操作这些集群的成本高达9.44亿美元。

同样,由于资源集中率是一个主要挑战,因此所有AI实验室和大型云服务提供商都有大量用于单个培训操作的GPU,这些GPU用于研究和培训任务。

年工资接近1000万,在中国大学挖掘最高人才

DeepSeek完全是从中国招募的,不仅限于过去的资格,而是对能力和好奇心非常关注。 DeepSeek经常在北京大学和千江等顶级大学中举行,许多员工已从这些大学毕业。

工作职责是完全固定的,招聘时将有一定的灵活性。招聘广告甚至声称它可以无限制地致电10,000多个GPU。

这些职位的竞争非常激烈。据说,潜在候选人提供的薪水超过130万美元(约934万元人民币)远高于大型中国技术公司和AI实验室(例如Moonshot)等竞争对手的薪水。

目前,DeepSeek大约有150名员工,但他们正在迅速扩展。

历史证明,拥有足够资金的小型初创公司通常可以突破界限。

DeepSeek没有像Google这样的官僚机构。由于其自身的资金,它可以快速推进新想法。

但是,类似于Google,DeepSeek(在大多数情况下)自行构建的数据中心而不依赖外部或供应商。这为进一步的实验提供了更大的空间,以便它们可以在整个技术堆栈上实现创新。

我们认为,它们是当今唯一最好的“开源”实验室,超过了meta的Llama项目,Mistral和其他竞争对手。

DeepSeek的极低成本被误解了

DeepSeek的价格和效率引发了硅谷技术圈中地震的关键。

但是,DeepSeek V3的培训成本是一个广泛循环的数字,实际上是一个方面。这仅等同于产品材料清单的一部分,并将其视为全部成本。培训前成本只是总成本的一小部分。

我们认为,预培训的成本远非模型的总成本。

我们认为,DeepSeek在硬件上的支出超过了5亿美元。为了开发新的体系结构创新,在模型开发过程中,他们花了很多资金来测试新的想法,新的体系结构和消融实验。

多头潜在注意力 - DeepSeek的关键创新需要几个月的时间才能开发,并为整个团队花费大量的人力和GPU计算时间。

本文提到的600万美元的成本仅是指在培训过程中GPU的成本,这只是总模型成本的一部分。不包括重要部分,例如研发成本和硬件本身的总体所有权。

作为参考,Claude 3.5十四行诗的培训费用达到了数千万美元。如果这是人类的总成本,那么他们就无需从Google筹集数十亿美元,并从亚马逊筹集了数十亿美元。因为这是他们进行实验,提出新建筑,收集和清洁数据并支付员工工资的必要费用。

那么,DeepSeek如何获得如此大的群集呢?出口控制的滞后是关键,我们将在下面详细讨论它。

V3秘密减少性能差距

毫无疑问,V3是一个令人印象深刻的模型,但值得强调与什么相对于什么“令人印象深刻”的模型。

许多人将V3与GPT-4O进行了比较,并强调V3超过4O的性能,但GPT-4O于2024年5月发布。随着当前AI的速度,当时算法的提高,现在非常不同。此外,我们并不感到惊讶的是,在一段时间后,我们可以通过更少的计算资源来实现或更强大的功能。

推理成本的显着下降是AI改善的迹象。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_

例如,一些可以在笔记本电脑上运行的小型模型可以与GPT-3相提并论,GPT-3需要超级计算机,需要大量的GPU推理。换句话说,算法的改进使具有较少计算资源的模型可以通过相同的性能模型进行训练和推理,并且该模型在行业中已经出现了很多次。

世界终于注意到了这次,因为它来自中国的一个实验室,但是小型模型的性能并不新鲜。

_万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

目前,行业的趋势是,AI实验室继续增加其投资绝对资金,以获得更高的智能水平。

据估计,算法效率每年提高4次,也就是说,每年计算用于实现相同性能的资源下降4次。

Anthropic的首席执行官达里奥(Dario)认为,算法进度甚至会更快,并且可以取得10倍的进步。

就GPT-3质量推理价格而言,成本下降了1200次。

在研究GPT-4的成本时,尽管在曲线的早期阶段,我们也看到了类似的下降趋势。可以解释的时间差异可以解释,不再像上图那样保持性能。

在这种情况下,我们看到算法的改进和优化可将成本降低10倍,并且性能增加了10倍。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估__万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

应当指出的是,DeepSeek的独特性是他们在实现这一成本和绩效水平方面领先。

尽管Mistral和Llama模型在开源模型上也做了类似的事情,但DeepSeek是独一无二的。如果到今年年底之前的费用将下降5次,请不要感到惊讶。

R1为什么迅速赶上Openai O1

每个人都热烈讨论的另一个话题是R1可以达到与O1相同的效果,而O1仅在9月发布。

在短短几个月内,DeepSeek如何如此迅速地赶上?

问题的关键是推理能力已经形成了新的范式。

推理范式的迭代速度更快,并且可以通过更少的计算资源获得重大好处。正如我们在法律报告中提到的那样,过去的范式取决于预训练,这种方法不仅越来越高,而且很难稳步进步。

新的推理范式着重于通过现有模型中的生成数据生成和加强学习来提高推理能力,以便以较低的成本取得更快的进步。

较低的入口阈值以及简单的优化使DeepSeek比过去更快地复制O1方法。当所有各方探索如何在这种新范式下进一步扩展时,我们希望在匹配性能中不同模型之间的时间差距将扩大。

应该注意的是,R1论文没有提及所使用的计算资源。这绝不是偶然的,以生成用于培训后培训的合成数据,R1需要大量计算资源,更不用说加强学习。

R1是一个非常好的模型,但是它披露的一些基准测试也具有误导性。 R1故意没有提到它没有领导的基准测试。尽管R1在推理性能中与O1相当,但在每个指标中,它并不是显而易见的赢家,即使在许多情况下,它甚至不如O1。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估__万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

在这里,我们还没有提到O3。 O3的能力明显高于R1和O1。实际上,OpenAI最近分享了O3的结果(O3-Mini提前发布),其基准测试的扩展是垂直的。

这似乎再次证明了“深度学习相遇的瓶颈”,但过去这种瓶颈有所不同。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估__万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

与Google的推理模型相当

尽管R1的繁荣不断,但许多人忽略了它。一家2.5亿美元的美国公司以较低的价格以较低的价格发布了推理模型:Google的Gemini Flash 2.0思维。

该模型已经可用,即使通过API具有更长的上下文,其成本也远低于R1。

在宣布的基准测试中,Flash 2.0思维超过R1,尽管基准测试不能解释整个情况。 Google仅发布了3项基准测试,因此情况并不全面。但是,我们认为Google的模型非常稳定,并且在许多方面都可以与R1相提并论,但是它并没有得到太多关注。

这可能是由于Google的营销策略和差的用户体验所致,但与此同时,R1也出现在中国的黑马中。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_

应该清楚的是,这些不会削弱DeepSeek的非凡成就的价值。 DeepSeek是一家快速运营,足够的资本,聪明和专注的起始公司,这就是为什么它超过了诸如推理模型的巨人。

MLA创新,使美国技术圈被疯狂复制

DeepSeek取得了许多技术创新,这些创新尚未获得许多领先的AI公司。我们预计,DeepSeek发布的任何技术进步将几乎立即由西方实验室复制。

这些技术突破是什么?大多数体系结构上的成就与V3有关,V3也是R1的基本模型。让我们在下面详细介绍这些创新。

培训(培训和培训后培训)

DeepSeek V3使用多句话预测(MTP)来实现未准备的量表。这是一个新的注意力模块,可以预测下一个多个令牌而不是单个令牌。

它在培训期间大大提高了模型性能,可以在推理过程中删除。这是一种算法创新,它使用较低的计算资源来提高性能。

还有一些其他考虑因素,例如在培训中使用FP8精度,但是美国领先的实验室已经培训了一段时间。

DeepSeek V3也是专家的混合模型,这是一个由许多小型专家组成的大型模型,专注于不同的任务,显示出强大的出现能力。

MOE模型面临的问题之一是如何确定应分配哪个子模型或“专家”的令牌。 DeepSeek实现了一个“门控网络”,该网络可以以平衡的方式使用代币路由给合适的专家,而不会影响模型性能。

这意味着路由效率很高。在训练过程中,每个令牌仅需要少量参数来修改整个模型的大小。

这提高了培训效率,还降低了推理的成本。

尽管有些人担心专家混合模型(MOE)带来的效率提高可能会减少投资,但达里奥指出,更强大的AI模型带来的经济利益非常相当大,因此任何储蓄成本都将迅速投资于建立一个较大的结构。尺寸型号。

MOE的效率不仅不能降低整体投资,而且会加速AI的规模。目前,硅谷的主流技术公司都将把模型扩展到更多计算资源并提高算法的效率。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估__万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

R1 V3背后的基本模型

就R1而言,它从具有强大的基本模型(V3)中受益匪浅,这是由于加强学习(RL)所致。

RL主要关注两个点:格式化(确保输出相干)和有用性和安全性(以确保模型是实用的)。

当模型良好时会产生推理能力。正如我们在《扩展法》文章中提到的那样,这是O1的过程。

应当指出的是,R1论文中未提及计算资源的使用,因为所使用的计算资源数量将表明他们拥有的GPU数量远远超过了外国宣传的规模。

如此大的增强学习需要大量计算资源,尤其是生成合成数据的场景。

此外,DeepSeek使用的一部分数据似乎来自OpenAI的模型(未确认),我们认为这会影响输出蒸馏的政策。根据服务条款这是非法的,但是将来,新趋势可能采用类似于KYC(了解客户)的方式来防止数据蒸馏。

当涉及蒸馏时,R1纸中最值得注意的部分是通过使用推理模型的输出将其转换为具有推理能力的模型,以罚款非插入小型模型。

数据集计划包含800,000个样本。现在,任何人都可以使用R1的思维链(COT)输出来创建自己的数据集,并使用这些输出来构建推理模型。

我们可能会看到更多的小型模型来显示它们的推理能力,从而提高了小型模型的性能。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估__万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

潜在的关注(MLA)

正如我们前面提到的,潜在的关注(MLA)是DeepSeek大幅降低推理成本的关键创新。

因为与标准注意机制相比,MLA将每个查询所需的KV缓存降低了约93.3%。 KV缓存是变压器模型中的一种存储机制,用于从代表性对话的上下文中暂时保留数据,从而减少重复计算。

随着对话环境的增加,KV缓存将增加,这将带来巨大的记忆压力。因此,每次所需的KV缓存大大降低可以减少每个查询所需的硬件量,从而降低整体成本。

但是,我们认为DeepSeek以成本价格提供合理的服务,以抓住市场份额,而不是真正的盈利。

Google Gemini Flash 2.0思维仍然更便宜,Google不太可能以成本价格提供服务。 MLA特别引起了许多美国领先的实验室的注意。

MLA于2024年5月在DeepSeek V2上首次发布。由于H20的内存带宽和容量高于H100,因此DeepSeek还提高了推理工作负载的效率提高。他们还宣布了与华为的合作关系,但到目前为止,Shengteng计算中几乎没有应用。

(昨天,基于硅的Mobile和华为云团队宣布了联合发布,并根据Huawei Yunsheng Tengyun服务启动了DeepSeekr1/V3推理服务。)

我们认为,MLA对利润率的影响对整个AI生态系统具有重要意义。

R1不会削弱技术水平上的O1的优势

在利润率方面,我们有一个钥匙可以发现R1不会削弱O1的技术优势,而是提供了类似的能力,其成本较低。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估__万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

这个结果是合理和开明的,这促使我们建立了面向未来的定价机制框架。能力越强,利润率越高,这种逻辑与半导体制造业的发展路径非常相似。

当TSMC首次闯入新的流程节点并推出了前所未有的产品时,他可以获得强大的定价能力。三星和英特尔等技术捕捞阶段的竞争对手更多地依靠成本和绩效来寻求平衡,通常以低于市场领导者的价格竞争。

对于芯片制造商(类比是这里的AI实验室),其优势是它可以灵活地调整生产能力。如果新模式具有更好的成本和收益,企业可以快速提高其能力,并逐渐减少对旧型号的支持。

这种容量调整机制不仅符合当前AI实验室的操作模型,而且还符合半导体行业的长期经验。

技术的竞争是定价电力竞赛

这可能表明未来AI竞争的发展轨迹。

领导进入新容量水平的企业将具有明显的定价溢价,而追随者只能依靠微薄的利润来维持。

那些能够满足特定的使用情况的能力落后的产品将仍然存在,但是越来越少的参与者可以赶上每一代人的领导者,将变得越来越少。

我们目睹了R1达到领先能力水平,但以零利润的价格出售。

这种独特的价格差异使人们怀疑:为什么Openai的产品如此昂贵?因为他们的产品定价基于前沿技术,并获得了相应的溢价收入。

_万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估

我们认为,未来的技术发展速度将超过当前半导体制造的快速节奏。

对最新功能的追求意味着连续定价权利 - 获取Chatgpt Pro的一个例子,并且具有滞后能力的产品必须通过降低价格来维持市场。利润取决于基础计算能力和令牌基础架构。

在当前的快速迭代技术周期中,追求卓越的推动力只会加速产品的更新。只要公司可以继续扩展能力并发展新的价值功能,他们就应该享有定价能力。相反,在公开市场中,产品的同质性趋势将迅速出现。

在这种情况下,人们对当前情况有根本的误解。我们描述的场景与具有超高速发展的半导体制造业有点相似 - 这是世界上资本密度最高的行业。在研发中,没有哪个行业比半导体制造业投资更多,但是最接近此现实的AI模型供应链通常被视为不利的参考对象。

将AI令牌与Jevez的悖论进行比较,我们可以找到深刻的历史相似之处。

最初,人们对晶体管是否可以继续略微减少感到怀疑。一旦确认了这一趋势,整个行业就全力以赴,以促进CMOS技术的限制,并在此基础上建立关键功能。

今天,我们正处于整合多链思维模型和能力的早期阶段,这与晶体管缩小的早期时代非常相似。尽管从技术角度来看,这可能是动荡的时期,但这对Nivine来说是个好消息。

自由和强大的推理模型可以继续继续吗

实际上,市场一直在寻找一个新的突破点,这正是它所选择的。

如果DeepSeek愿意以0甚至负利润率运营,那么其产品的价格确实可以在此降低到该程度。

但是,切割边缘令牌服务的定价弹性显然要高得多。在新的一轮融资中,他们有强大的动力来追求这一策略。

万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_万字揭秘DeepSeek:顶尖AI人才年薪千万,训练成本被低估_

在推理领域的关键转折点,DeepSeek打破了Openai的利润率。这个领先的位置可以继续吗?

我们认为不是 - 一切后,开源实验室现在已经表明能够仅被视为属于封闭的源实验室的能力。尽管这是一个关键的发展,但必须意识到DeepSeek仍然是一个快速的追随者。

我们确实认为,更强大的开放实验室(目前是最杰出的代表),这将极大地使新兴的云服务提供商和基础设施供应商受益。

无论该模型是开放还是关闭的,计算资源的集中化仍然至关重要。但是,如果基于这些计算资源的上层服务开始免费提供产品,则计算其自身固有的价值可能会上升。

更多的资本将流向计算基础架构,而不是封闭的模型供应商,这标志着支出硬件的前进。软件公司还将从这种动态中受益匪浅。

相关内容 查看全部