发布信息

中国企业DeepSeek-V3大模型开源发布,性能国际一流,技术力超群,价格极具竞争力

作者:软荐小编      2025-01-03 09:05:06     154

没想到,在西方还沉浸在圣诞假期、疯狂庆祝新年的时候,我们中国企业却给人们带来了新年的欢乐,让人心潮澎湃。

一段玉树科技机器狗的视频让大家惊呼:“我们还需要波士顿动力做什么?”

_显卡重要还是屏幕重要_硅谷英伟达公司

然后是国产大机型DeepSeek,甚至看起来在做空NVIDIA。

让我告诉你到底发生了什么事。

日前,DeepSeek刚刚发布了最新版本V3。需要注意的是,与大洋彼岸公司的产品声称是Open但越来越Close不同的是,这个V3是开源的。

然而,开源并不是它最重要的标签。 DeepSeek-V3(以下简称V3)还具备三大特点:世界一流的性能、牛逼的技术力量、深入地心的价格。这套招数并不能解释为什么它能赢得业界的青睐。各大模型厂商都有些困惑了。

_显卡重要还是屏幕重要_硅谷英伟达公司

V3一发布,OpenAI创始成员Karpathy立即兴奋不已,甚至提出灵魂问题,是不是意味着大型模型根本不需要大规模显卡集群?

想必老黄看到这一幕,头皮都发麻了。

_显卡重要还是屏幕重要_硅谷英伟达公司

与此同时,meta的AI技术官也直接称赞DeepSeek的成就非常伟大。

_显卡重要还是屏幕重要_硅谷英伟达公司

知名AI评测博主Tim Dettmers立即开始吹嘘,称DeepSeek的处理优雅且“优雅”。

_显卡重要还是屏幕重要_硅谷英伟达公司

而当这些有技术出身的人看到V3的成果并称赞的时候,有人就着急了。

比如奥特曼说抄袭比较容易,很难不让人想到他参与了DeepSeek。

_硅谷英伟达公司_显卡重要还是屏幕重要

更有趣的是,这样做的公司既不是大厂,也不是纯血统的AI厂商。

DeepSeek的中文名是DeepSeek,它们与AI无关。

就在大模型流行之前,他们其实是来自私募股权公司Magic Square Quantitative的团队。

硅谷英伟达公司_显卡重要还是屏幕重要_

而深搜可以实现弯道超车,这既是必然,又显得有些幸运。

早在2019年,欢放就投资2亿元打造了自主研发的深度学习培训平台“萤火虫一号”。到2021年,已购买了10,000英尺计算能力储备的NVIDIA A100显卡。

_显卡重要还是屏幕重要_硅谷英伟达公司

要知道,这个时候大模型还没有流行,万卡集群的概念还没有出现。

正是凭借这部分硬件储备,欢放拿到了大AI模型的入场券,最终推出了现在的V3。

你说一个量化投资领域的大公司,为什么会来搞AI?

深搜CEO梁文峰在接受采访时告诉大家,他并不看好AI的前景。

但在他们看来,“通用人工智能可能是下一个最难的事情之一”,而且对他们来说,“这是一个如何做的问题,而不是为什么做的问题。”

_硅谷英伟达公司_显卡重要还是屏幕重要

正是凭借如此“鲁莽”的精力和深入的研究,我们才想出了这个大新闻。让我详细告诉你V3有什么特别之处。

首先是其强大的性能。目前几乎没有开源模型可以击败V3。

还记得去年年中,小扎的meta推出了型号Llama 3.1。当时因其出色的性能和开源而被赞为神。不过,到了V3手里,基本就彻底败了。

至于各大厂商手中的闭源模型,比如大家熟悉的GPT-4o、Claude 3.5 Sonnet等,V3也能玩个来回。

硅谷英伟达公司__显卡重要还是屏幕重要

当你看到这个的时候,你可能会想,仅此而已,已经赶上了国际领先水平了。值得这么夸吗?

残酷的事情还没有到来。

大家大概都知道,现在的大型模型是一个炼金过程,需要使用大量的计算能力来让模型消耗各种数据。

在这个炼金期,需要的是大量的算力和时间。

因此,圈子里多了一个新的计量单位“GPU hour”,即使用了多少个GPU,花费了多少小时的训练时间。

显卡重要还是屏幕重要__硅谷英伟达公司

GPU越高,时间和金钱成本就越高,反之亦然。

前面提到的开源模型王 Llama 3.1 405B 在训练周期中花费了 3080 万个 GPU 小时。

更强大的 V3 仅花费了不到 280 万个 GPU 小时。

从资金上来说,DeepSeek只花了4000万多元来制作V3版本。

在Llama 3.1 405B的训练过程中,meta仅从老黄那里购买了16000多块GPU,保守估计至少花费了10亿人民币。

至于其他闭源模型,往往耗资数十亿、数百亿。

_显卡重要还是屏幕重要_硅谷英伟达公司

不要以为DeepSeek依赖于一些歪门邪道的方法。他们是认真的人,有技能。

为了了解DeepSeek的技术到底是什么样的,我们特地联系了宇和科技创始人兼CTO迟光耀。他们主要为企业培养代理数字人,长期以来都是DeepSeek的铁杆粉丝。

池光耀告诉我们,本次V3更新主要围绕三个方面进行优化,分别是通信和显存优化、推理专家负载均衡以及FP8混合精度训练。

我不会详细介绍每个部分是如何实现的。总体来说,整体结构没有太大变化。它更像是我们在基础设施建设中使用的传统技能,使项目更加高效、合理。 。

显卡重要还是屏幕重要__硅谷英伟达公司

首先,V3通过通信和显存优化,大大降低了资源闲置率,提高了利用效率。

推理专家(具有推理能力的AI系统或算法,可以通过数据分析得出结论)的负载均衡就更加巧妙了。对于一般的大型模型来说,每次启动时,所有专家都要等比例放入工作站(Video Memory),但到了真正回答用户问题的时候,十几个专家中只用到一两个。剩下的专家占用工作站(视频内存)和鱼,不能做任何其他事情。

DeepSeek 将专家分为受欢迎的和不受欢迎的专家。热门专家将一份副本放入显存中,以处理热门问题;不受欢迎的专家不会试图捞出,并且总是可以分配问题。

FP8混合精准训练是向许多团队之前尝试过但没有成功的方向迈出的新一步。通过降低训练精度来减少训练时的算力开销,奇迹般地保持了答案质量基本不变。

正是这些技术创新,赢得了广大模特圈的一致好评。

显卡重要还是屏幕重要__硅谷英伟达公司

通过技术更新的不断迭代,DeepSeek 所收获的回报也相当惊人。

他们的V3版本推出后,价格已经低至每百万次几美分或几美元。

他们甚至正在进行新产品促销活动,在原来的低价基础上提供折扣,直到明年 2 月 8 日。

显卡重要还是屏幕重要__硅谷英伟达公司

正如开头提到的,Claude 3.5 Sonnet,同样是开源的,每百万投入产出至少要几十块钱。 。 。

更糟糕的是,这已经是DeepSeek的家常便饭了。

早在去年初,DeepSeek V2模型发布后,就因其低廉的价格被称为AI行业的拼多多。

进一步引发了国内大型模型公司的价格战,智浦、字节、阿里巴巴、百度、腾讯等各大厂商纷纷降价。

_硅谷英伟达公司_显卡重要还是屏幕重要

迟光耀还告诉我们,他的公司早在去年六七月份就开始使用DeepSeek。当时国内其他一些大型模型厂商也找上门来。

但如果价格与 DeepSeek 类似,则该模型“太笨了,与 DeepSeek 不在一个维度”;如果模型能力与DeepSeek类似,价格“基本上是10倍以上”。

更夸张的是,由于“遥遥领先”的技术带来的成本降低和效率提升,即使DeepSeek卖得这么便宜,按照他们的创始人梁文峰的说法,他们的公司仍然赚钱。 。 。是不是感觉隔壁比亚迪在做998,财报还在蓬勃发展?

但对于我们普通用户来说,DeepSeek 似乎有点偏颇。

因为他的强项主要是推理、数学和编码,而多模态和一些娱乐领域并不是他们的强项。

硅谷英伟达公司__显卡重要还是屏幕重要

而目前,虽然DeepSeek说他们还在赚钱,但他们的团队从上到下都有极客的氛围,所以他们的商业化程度比其他厂商要弱一些。

但无论如何,DeepSeek的成功也证明了AI赛道还有更多的可能性。

按照之前的理解,想要玩AI,如果没有花钱买显卡的资金支持,那根本就玩不了。

但现在看来,掌握算力并不一定意味着掌握一切。

我们不妨期待未来更多的优化,让更多的小公司和初创企业进入AI领域。我总觉得这才是真正的AI浪潮。

相关内容 查看全部