发布信息

DeepSeek全球科技圈崛起:AI产业链连锁反应与日活跃用户突破

作者:软荐小编      2025-02-09 15:02:18     83

在新年的全球技术圈中,主角是DeepSeek。自发布以来,DeepSeek在整个AI产业链中引发了一系列的链反应。无论是Openai还是Nvidia,其明显的震惊似乎都证明了DeepSeek成功发起了意外攻击。

DeepSeek的最初表现确实非常出色。数据显示,DeepSeek的日常活跃用户在发布的5天内已经超过了Chatgpt,并且在发布的20天内,每日活跃的用户达到了超过2000万,占Chatgpt的23%。目前,DeepSeek已成为世界上增长最快的AI应用程序。

尽管海外AI球员令人难以置信,但国内AI场上充满了“锣和鼓”:截至目前,阿里巴巴云,百度云,腾讯云和Byte Volcano Engine已正式支持DeepSeek;同时,Baidu Kunlun Core和Days Zhixin和Moore Threads依次宣布了他们对DeepSeek模型的支持。

这也标志着在全球AI赛车中,国内制造商终于采取了又一步。 DeepSeek的出现是否打破了长期寿命的大型模型行业的一些传统“ cur”,许多关键细节实际上值得进一步研究。

DeepSeek开箱即用的“休闲”吗?

查看当前有关DeepSeek的主要争议,似乎每个观点都指出了同样的问题:DeepSeek是否真的在大型模型中取得了技术突破。早在DeepSeek宣布其模型培训成本仅是该行业的1/10时,就有质疑DeepSeek通过大大减少模型参数的规模或依靠母公司Huard hoard hoard hoard hoard hoard hoards the deepseek实现的声音就可以实现这一目标。早期阶段。

从某个角度来看,这些疑问是可以追溯的。

一方面,DeepSeek在降低模型参数规模时的“激进”对所有人都是显而易见的。另一方面,DeepSeek后面的魔法正方形确实具有一定的计算功率储备。据报道,Huanfang是蝙蝠外部唯一可以保留10,000 A100芯片的公司。据报道,在2023年中,中国不超过5家公司,超过10,000 GPU。

魔术广场是其中之一。

但是值得一提的是,模型参数的减少和计算能力创新的争议都不能否认DeepSeek的“小力量产生奇迹”策略的实质意义。首先,DeepSeek-R1超过了大型模型,例如GPT-4,成功率在数学基准中的成功率为79.8%,参数量仅为1.5亿(1.5B)。

其次,轻质模型自然在推理能力和性能方面表现更好,并且培训和操作成本较低。据报道,DeepSeek以仅1/50的价格提供GPT-4的类似性能,从而在中小型企业和个人开发商中抢夺了一定的市场地位。

至于魔术广场对DeepSeek的奖励,这并不是一个意外的资本游戏,而是国内大型模型增长的必然结果。值得注意的是,Huanfang量化是最早进入大型模型轨道的国内公司之一。早在2017年,Huanfang宣布将实现投资策略的全面AI。

2019年,Huanfang定量建立了一家AI公司。其自发展的深度学习训练平台“第一朵花”的总投资近2亿元,并配备了1,100 GPU。两年后,对“ 2号花”的投资增加了。它在10亿元人民币的情况下,配备了约10,000个NVIDIA A100图形卡。

2023年11月,DeepSeek的第一个开源模型DeepSeek-Coder发布了。换句话说,导致海外技术巨头共同打破防御的DeepSeek并不是一夜之间的产品,而是国内AI制造商在大型模型布局中迟早要采取的步骤。

不可否认的是,该国目前有培养“ DeepSeek”的客观条件。公共信息表明,全面的人工智能系统诞生于各方追求资本。有4,500多家与国内人工智能相关的公司,核心行业的规模接近6000亿元人民币。

芯片,算法,数据,平台,应用程序...由大型模型代表的人工智能的渗透率达到16.4%。

当然,DeepSeek技术路径依赖的风险总是存在,这也使DeepSeek的开箱即用更加偶然,尤其是“数据蒸馏技术”的质疑。实际上,DeepSeek并不是第一个使用数据蒸馏的大型模型,并且“过度散步”甚至是当前人工智能轨迹的主要矛盾。

中国科学院,北京大学和其他机构的许多机构指出,除了豆面包,克劳德和双子座外,大多数开放/封闭的源LLM蒸馏量都太高了。过度依赖蒸馏可能会导致基础研究停滞,并减少模型之间的多样性。上海Jiotong大学的一位教授还说,蒸馏技术无法解决数学推理中的基本挑战。

简而言之,这些迫使DeepSeek甚至整个国内大型模型轨道继续验证自己。也许,第二个“ DeepSeek”将在中国出生。从现实的角度来看,DeepSeek的成功必然会远远超过偶然的。

“开源时代”即将到来吗?

值得注意的是,与技术纠纷相比,DeepSeek再次引发了有关全球技术圈中有关开源和封闭资源的激烈争论。 meta首席科学家Yang Likun还在社交平台上表示,这不是中国赶上美国,而是开源的,赶上了封闭的消息来源。

当涉及开源模型时,它可以追溯到2023年meta的源代码泄漏风暴。当时,meta主动发布了Llama 2的开源商业版本,该版本立即引发了开源在大型模型轨道上疯狂。诸如Wudao,Baichuan Intelligence和Alibaba Cloud之类的国籍进入了开源大型模型字段。

根据Kimi Chat统计数据,整个2024年都有10多个开源大型模型品牌。在2025年初的不到两个月的时间里,除了流行的DeepSeek外,有无数的人参加了开源。

据报道,Minimax于1月15日开放了两个型号。一个是基本语言模型minimax -text -01,另一个是视觉多模型minimax -vl -01;同时,NVIDIA还开设了自己的世界模型,其中有三种模型:Nano,Super和Ultra; 1月16日,阿里巴巴云汤蒂(Cloud Tongyi)还开设了一个数学推理过程奖励模型,大小为7b。

从2023年到2025年,在无数的AI才能争论之后,大型模型的“开源时代”终于来了吗?

可以肯定的是,与封闭的源模型相比,开源模型可以在短时间内以其开放性获得很多关注。公共信息显示,在发布“ Llama 2”开始时,它的拥抱面部搜索模型有6,000多个结果。 Baichuan Intelligent表明,其两个开源型号的下载量在当年9月超过500万。

实际上,DeepSeek的快速流行与其开源模型密不可分。 2月份的统计数据表明,目前有无数的公司与DeepSeek系列模型有关,云制造商,芯片制造商和应用公司都在这里加入。在AI需求如火如荼的那一刻,大型模型的开源似乎更有利于AI的生态。

但是,大型模型轨道是否是开源的,仍将讨论。

尽管Mistral AI和XAI都是开源支持者,但他们的旗舰车型目前已关闭。大多数国内制造商基本上是封闭的来源和开源。典型的例子,例如阿里巴巴云,Baichuan Intelligence,甚至Robin Li曾经是封闭的源模型的忠实拥护者。

原因并不难猜。

一方面,开源人工智能公司在全球技术领域的资本中并不受欢迎,但是封闭的AI公司在融资方面具有更大的优势。统计数据显示,自2020年以来,全球封闭式AI初创公司已完成375亿美元的融资,而开源AI公司仅获得了149亿美元的融资。

对于像水一样花钱的人工智能公司,差距并不是一小部分。

另一方面,在过去两年中,开源AI的定义变得越来越复杂。 2024年10月,全球开源促销协会发布了1.0版的“开源AI定义”。新定义表明,AI模型有三个关键点是开源的:首先,培训数据透明度;第二,完成代码;第三,模型参数。

基于此定义,DeepSeek被质疑不是真正的开源,而只是为了迎合短期势头。在全球范围内,大自然的一份报告还指出,许多科技巨头声称他们的AI模型是开源的,实际上并不完全透明。

几天前,被“命中”的奥特曼(Altman)首次承认Openai封闭的消息来源是“错误”。也许,随着DeepSeek的流行,AI行业的“流口水戏剧”即将开始。

大规模计算电力投资即将被“暂停”?

在此期间,许多沉迷于ho积计算能力的人工智能公司因出现DeepSeek的出现而被嘲笑,而Nvidia等计算电源供应商的股票价格也急剧下降。老实说,DeepSeek确实在某些方面带来了新的突破,尤其是在“垄断诅咒”上,减轻了一些焦虑。

但是,全球大型模型轨道中的计算能力需求不能忽略,即使是DeepSeek本身也可能无法暂停其计算能力投资。

应该注意的是,DeepSeek当前仅支持文本问答,图片阅读,文档阅读和其他功能,并且尚未参与图片,音频和视频生成领域。即便如此,它的服务器仍然处于崩溃的边缘,一旦他们想更改形式,计算功率需求将爆炸,并且视频生成模型和语言模型之间的计算功率需求差距非常大。

公共数据表明,培训和推断Openai Sora视频生成所需的计算能力要求分别是GPT-4的4.5倍和接近400倍。从语言到视频的跨度是如此之大。随着各种超级计算方案的诞生,计算功率构建的必要性仅增加而没有减少。

数据表明,在2010年至2023年之间,对AI计算能力的需求增加了数十万次,远远超过了摩尔定律的增长率。进入2025年,OpenAI发布了其第一个AI代理产品Operator,该产品将点燃超级计算功率方案。这是计算电源是否继续进行的关键。

据报道,大规模开发的当前定义分为五个发展阶段:L1语言能力,L2逻辑能力,L3工具使用能力,L4自学习能力和L5探索科学法律。代理商位于L3的工具使用能力中,也开始探索L4的自学能力。

根据Gartner的预测,到2028年,预计世界各地15%的日常工作决策将通过Agentic AI完成。如果大型模型轨道根据计划和期望(从L1到L5)疯狂地运行,那么世界各地的主要AI公司将不会忽略计算能力的构建。

到L3阶段,近似计算能力要求是什么?

在2024年10月的一份报告中,Barlek Bank预测,到2026年,如果消费者AI应用程序可以超过每日活跃用户10亿,并且代理商的渗透率超过5%,则必须至少142B Exaflops(大约AI计算功率的150,000,000,000,000 p)产生50万亿个令牌。

即使超级应用阶段仍然很遥远,也没有公司愿意在加速淘汰大型模型轨道的战场上落后。微软,Google,Amazon,meta,Bytedance,Alibaba,Tencent,Baidu ...这些AI巨人在国内外和国外担心,他们会继续花钱去押注未来。

此外,关于DeepSeek的最受赞扬的事情是绕过“芯片标记”。

但是,作为计算电源行业的基石,凭借相同的投资,高质量的计算功率基础架构通常会提供更高的计算能力效率和业务回报。如“ 2025年计算功率行业的十大趋势”中提到的,以GPT-4为例,其性能在不同的硬件配置下将显着不同。与H100和GB200等不同硬件配置的性能相比,使用GB200扩展64配置的获利能力是H100 Scale-UP 8配置的6倍。

DeepSeek崩溃的服务器可能意味着大型模型轨道中的“核心捕获”游戏并未在计算功率竞争中结束。据报道,在2025年,NVIDIA的下一代GPU GB300可能会遇到多个关键的硬件规范更改,而国内AI芯片家庭化过程也一直在进行。

所有迹象都表明,勤奋的计算功率构建将不会暂时停止,但会更加复杂。

[Titanium Number作者简介:Dao Zong是合理的,曾经用作互联网和技术圈中的新媒体。本文是原始文章,不允许任何形式的复制形式,而无需保留作者的相关信息。 】

相关内容 查看全部