发布信息

DeepSeek开源周掀起革命:大模型厂商如何应对效能与成本的双重挑战?

作者:软荐小编      2025-03-03 16:02:14     179

出品|虎嗅科技组

作者|宋思杭

编辑|苗正卿

头图|视觉中国

DeepSeek这波开源,六小虎敢跟吗?

DeepSeek 正在举办“开源周”,这掀起了一场革命。然而,是否要进行革命以及如何进行革命,这取决于大模型厂商自身。

“开源周”持续了五天,原本应在 2 月 28 日结束。然而,3 月 1 日,DeepSeek 又一次开源了一个重要的代码库,其推理效能得到了极致的提升,成本利润率达到了 545%。这种效能提升在业界是从未有过的。

目前业界估算,H800 的平均性能水平在 500 到 1000 tokens/s(输入方面)以及 250 到 350 tokens/s(输出方面);DeepSeek 的效率为 73.7k/14.8k(分别对应输入和输出)。

如果将 DeepSeek R1 比作一道菜,那么在一周内,它已经将这道菜所使用的原材料(也就是数据)、其来源、具体的加工流程以及步骤,毫无保留地进行了公布。

大模型开源社区生态平台 OpenCSG(开放传神)的创始人陈冉告知虎嗅,“这是一套完备的‘生产线’。像此类的代码库开放之举是前所未有的。从未有任何一家将模型的制作过程开源出来。”

相当于,DeepSeek 先抛出了一颗炸弹,这颗炸弹是 R1 技术报告,原因是其中提到了创新点;接着又抛出了另一颗炸弹,即上周开源的代码库,它也就是创新过程。

虎嗅了解到,在开源周之前,DeepSeek 发布了更重磅的 NSA(Native Sparse Attention)。陈冉告知虎嗅,R1 是为了解决后训练和推理方面的问题,而 NSA 解决的是预训练的成本问题。这种将成本降低且效率提升到极致的方式,对预训练 Scaling Law 的规则构成了挑战。

不过,虎嗅向行业人士进行了了解。得知即使 DeepSeek 公布出这一整条大模型“生产线”,也不一定有几家基座模型厂商能够完全按照其样子生产出下一个 DeepSeek。这其中一方面依赖于它自身的开源基础,另一方面在于适配的难度。

DeepSeek 引发的开源潮情况更甚,它在国内掀起了所有大模型厂商的一场革命,有些大模型厂商甚至不惜成本去革自己的命。

虎嗅获悉,几家云厂商已开始大力调整组织架构,且内部在探讨新的商业模式;大模型六小虎方面,普遍在内部筹备应对方案,对外拒绝对 DeepSeek 表达任何态度。

适配得了DeepSeek“生产线”的,凤毛麟角

首先,能够将这条生产线适配到自身模型的是有开源基础的基座模型厂商。然而,对于国内有多少这类厂商,这是一个需要打问号的问题。

开源基础是需要进行积累的。陈冉持有这样的观点,即只有当开源积累达到一定的程度之后,才会出现创新,而有了一定的创新之后,才能够称之为有开源基础。并且,即便已经具备了开源基础,能够学到其精髓的厂商也是寥寥无几的,只有极少数的厂商能够做到。

同样,在这场开源潮里,真正适合开源的数量并不多。那些剩余的,即便进行了开源,也仅仅只能促使丛林法则加快,会让它们更快地走向灭亡。

某行业人士向虎嗅透露,在六小虎当中,智谱以及 Minimax 最有希望能够跟上。原因在于它们具备开源基础,然而其模型能力仍有待提升。对于云厂商而言,即便它们开源,也无法达到 DeepSeek 那样的高度。一方面是因为受到商业化的影响和束缚,另一方面是它们开源的目的是为了销售云服务。

值得注意的是,在 DeepSeek 之前,国内基座模型厂商发 paper 的数量情况是怎样的呢?这足以证明国内有开源基础的厂商数量并不多。

能够预判的是,DeepSeek开源周之后,漏斗很快会形成。

另一个更大的问题在于,基座模型厂商若依据开源周的代码库来优化自身代码,那么能否成功适配是一个很大的疑问。

这与商业模式有关,陈冉告诉虎嗅。

如果对代码进行重写,或者盲目地进行开源,有可能会将自身的模式彻底颠覆掉。这种革命对于云厂商而言,都是一次重大的变革;而对于六小虎来说,则会导致它们走向灭亡。

所以接下来,基座模型厂商是否真的会对自身代码进行优化呢?另外,又该如何进行优化呢?这也是一个很大的疑问。

开源也可能加速死亡?

如何判断一个大模型是否在盲目开源?

陈冉认为,模型开源的原因在于公司想要持续提升核心技术。同时,通过大量的用户反馈,能够帮助公司找到自身的商业模式。而最终的目的是收集用户的通点。

常垒资本合伙管理人冯博向虎嗅表明,之所以会集体开源,实际上并非每一个都有必须开源的必要。然而从现在的情况来看,闭源已经不再具有意义了。他还补充说,除非在未来国内出现闭源模型超越 DeepSeek 的情况,或者出现具有独特垂直领域特长的闭源模型。

据虎嗅得知,部分机构未能成功抢投大模型六小虎。这些机构现在都觉得当初错失了机会,而如今看来,这也算是塞翁失马。

对六小虎而言,盲目开源是内部的一种危机。而外部的危机是 DeepSeek 的爆火。大量 DeepSeek 一体机的出现,也会给六小虎带来生存威胁。

冯博觉得,如果六小虎的模型在未来仍然难以与 DeepSeek 相媲美,那么他们很可能都无法战胜那些纷纷赶来的一体机厂商们。

然而,存在一种情况,即国产芯片与 DeepSeek 的适配效果或许不太理想。

从 DeepSeek 开源周公开的代码库进行观察,其天然适配英伟达的 CUDA 框架。对此,陈冉指出,未来若国产芯片无法设计出类似框架,那么 DeepSeek 与国产芯片到底适配得怎样,是一个疑问。

可以肯定的是,DeepSeek 促使国内的开源生态得到了加速。不管市场会经历怎样的一番洗牌,结局已然确定。而未知的是,究竟哪些会留存下来,哪些会走向消亡。

正在改变与想要改变世界的人,都在 虎嗅APP

相关内容 查看全部