环球网财经进行了综合报道。众人原本以为 DeepSeek 的开源周内容已经发布结束了。然而在 3 月 1 日,DeepSeek 突然宣告了“One More Thing”。接着它揭秘了自身的 V3/R1 推理系统。并且首次将大规模部署的成本和收益数据进行了公开。这一行为在行业内引发了极大的震动。
DeepSeek 官方发布的《DeepSeek-V3/R1 推理系统概览》文章表明,假如 GPU 租赁成本是 2 美元每小时,那么 DeepSeek V3/R1 推理系统的日均成本是 87072 美元。不过,要是按照 DeepSeek R1 的定价来计算,它单日的理论收入高达 562027 美元,成本利润率也就达到了令人震惊的 545%。
DeepSeek-V3/R1 推理系统的优化目标是达成更大的吞吐以及更低的延迟。为了达成这一目标,DeepSeek 运用了大规模跨节点专家并行这一策略,即 Expert Parallelism / EP 策略。EP 策略能让 batch size 大幅度增加,这样就提高了 GPU 矩阵乘法的效率,进而提升了吞吐。同时,EP 策略还能让专家分散在不同的 GPU 上,使得每个 GPU 的访存需求降低,从而减少了延迟。
然而,EP 策略使得系统的复杂性增加了。DeepSeek 为了优化吞吐,需要设计出合适的计算流程,这样就能让传输和计算同步进行。另外,因为 EP 涉及多个节点,所以天然需要数据并行(Data Parallelism / DP),并且不同的 DP 之间需要进行负载均衡。
针对这些挑战,DeepSeek 介绍了以下关键技术:一是如何使用 EP 来增大 batch size;二是如何隐藏传输耗时;三是如何进行负载均衡。DeepSeek 采用双 batch 重叠的方式,以此来掩盖通信开销,进而提高整体的吞吐。与此同时,它针对不同的并行模式设计了动态负载均衡器,目的是确保各个 GPU 的计算量、通信量以及 KVCache 的占用都能保持均衡,避免出现资源浪费的情况。
值得注意的是,DeepSeek 在实际部署中达成了一套关于昼夜的资源调配机制。白天的时候,因为服务负荷较高,所以会运用所有节点来部署推理服务。到了晚上,由于服务负荷变低,就会减少推理节点的数量,并且将这些减少的节点用于研究和训练。这一机制使得硬件的利用率得到了进一步提升,同时也降低了成本。
中信证券认为,Deepseek 在模型训练成本降低方面有着最佳实践。这一实践料将刺激科技巨头,使它们采用更为经济的方式,从而加速前沿模型的探索和研究。同时,这也将使得大量 AI 应用能够解锁和落地。算法训练会带来规模报酬递增效应,单位算力成本降低会对应杰文斯悖论等。这些都意味着在中短期维度,科技巨头继续在 AI 算力领域进行持续且规模的投入,仍将是高确定性的事件。
DeepSeek 此次披露的这些数据,一方面验证了它技术路线的商业可行性,另一方面也为行业树立了高效盈利的标杆。有分析人士指出,DeepSeek 的开源策略以及它的成本控制能力正在打破 AI 领域的资源垄断。它的模型训练成本只是同类产品的 1%到 5%,并且推理定价有着明显的优势。这一策略成本较低,它加快了市场的渗透速度。这样一来,更多的企业就有能力承担得起 AI 大模型的应用了。
然而,DeepSeek 披露了大规模部署的成本和收益之后,潞晨科技突然宣布会在一周后停止提供 DeepSeek API 服务。潞晨科技的 CEO 尤洋之前曾指出,尽管 DeepSeek - R1 的定价看上去比较低,但实际上接入方企业有可能会遭遇巨额亏损。这一消息无疑给 DeepSeek 的未来增添了一份不确定性。
尽管如此,DeepSeek 此次“透明化”披露还是向行业传递了清晰的信号:AI 大模型的盈利闭环已经从理想状态变为现实情况。这一关键转折标志着 AI 技术从实验室开始向产业化迈进,预计会刺激更多科技巨头以更经济的方式来加快对前沿模型的探索与研究。同时,AI 应用在不断解锁和落地。AI 算力领域会持续投入,并且会进行规模投入。这些投入将成为高确定性事件。
未来,DeepSeek能否在 AI 大模型领域继续保持领先地位呢?它的开源策略和低成本模式能否持续引领行业发展呢?这些问题还需要时间来给出答案。不过,无论怎样,DeepSeek 这次的揭秘无疑给 AI 行业带来了新的思考和启示。