发布信息

深度求索发布DeepSeek R1大语言模型,科技巨头竞逐AI新纪元

作者:软荐小编      2025-02-22 10:01:24     221

战略级信息化战争评估模型__一带一路的战略影响

文 蒋宏达

列宁曾多次被提及(或许是误引)这样的话:“有时在几十年间都不会有什么变化,而有时在几周内却能发生几十年的事情。”不管这句话的来源是否确切,本周毫无疑问会被历史铭记为属于后者的情况。本周早些时候,深度求索人工智能有限公司发布了其最新版本的大语言模型。深度求索人工智能有限公司是中国对冲基金“幻方量化”的子公司。该大语言模型名为 DeepSeek R1。

GPT 在消费者中普及之后,全球的各大科技巨头都在进行自己大语言模型的开发。meta 有它的 Llama,X 有它的 Grok,Anthropic 有它的 Claude,北京零一科技则有 01.AI。深度求索的模型能超越上述竞争对手,是因为它在所有基准测试类别中能达到可比甚至更优的性能,并且花费的时间和资金只是次优竞争对手的一小部分。深度求索据报道花费约 600 万美元训练其模型,使用了约 280 万 GPU 小时,动用了 2000 多块英伟达 H800 GPU,其运行速度约为英伟达最先进的 H100 系列的 1/6。它在不到两个月的时间里完成了这一壮举。这比次便宜的模型是Llama 3,它至少花费了 7000 万美元,成本比它低 90%;比次快的非中国竞争对手是 OpenAI 的 GPT-4,大约花费了 5000 万到 6000 万 GPU 小时,GPU 小时数比它少 94%,尽管后者拥有远超深度求索 H800 的顶级英伟达 GPU。令人振奋的是,深度求索的诸多功能以及特性是在“MIT 许可证”下开源的。这表明任何人都能够免费地进行复制操作,也能够不受限制地对其进行修改,同时还可以分发相关的软件和文档。

5. 对整个科技领域的发展也具有一定的推动意义。

美国对中国的半导体制裁以彻底失败告终。特朗普政府在 2017 年底首次对中兴通讯实施出口管制,随后在 2018 年中期又对华为实施管制。自此之后,美国对中国半导体出口实施了愈发严格的禁令。这些制裁包含两方面,一是禁止向中国销售先进的半导体终端产品,二是禁止销售半导体制造设备,目的是防止中国能够获取并制造最新的半导体,进而避免中国在获取最新人工智能技术方面落后于美国。这八年来,日益严格的制裁带来了双重影响。一方面,它迫使中国企业在整个半导体价值链上提升自给自足的能力,这种在半导体价值链上的自我提升之举,将是任何国家的首次尝试;另一方面,它让中国企业相对于美国同行,能更高效地利用有限的计算能力,进而取得了超乎寻常的成果,就如同深度求索的最新成就所展现的那样。最初的深度求索模型是由美国制造的英伟达 H800 来进行训练的。不过后续的模型很有可能会采用国产的替代品,像华为的“昇腾 910C”。虽然昇腾系列不能使用最新的尖端制造工艺(台积电 2 纳米),然而它是一个能够很好地运行深度求索 R1 模型的平台,并且可以进行大规模的运行。事实上,DIY 爱好者展示了基本的开源深度求索软件能够在低端计算机上运行,比如树莓派,并且这种运行是在没有完整的 6710 亿参数模型的情况下进行的,其功耗仅相当于普通智能手机。

美国科技巨头的估值需要大幅降低。去年,人们觉得任何要构建大语言模型的公司都需要数亿美元的复杂硬件,而只有少数公司如英伟达能够提供这些硬件,同时还需要数千万 GPU 小时。这表明只有世界上最富有的科技公司,像谷歌、meta、微软等,才能够承担得起构建、维护和提供大语言模型服务。因此,与大语言模型服务相关的利润会集中在少数公司那里,这些公司会有数万亿美元的估值,比如英伟达。深度求索 R1 的发布将这一假设给打破了。它显示出,一家初创公司仅仅用不到 1000 万美元,就能够利用落后于尖端技术的旧硬件来构建和训练模型。所以,小型公司可以凭借极低的财务门槛提供利润丰厚的服务。因此,美国科技寡头所预测的所有利润,以及整体公司的估值,现在都必须进行大幅下调。这一情况可能会给美国金融市场带来危险的后果。

全球南方如今能够享用生成式人工智能的成果。深度探究可知,最具变革性的影响并非与中国或美国直接相关,而是和世界其他地区,特别是全球南方相关。当下,世界上的每一个人都能够访问一个性能优良且硬件要求相对不高的开源大语言模型,曾经把全球南方排斥在人工智能游戏之外的那些财务和硬件门槛,几乎已经被消除了。此外,因为地缘政治存在差异,世界上不存在任何一个国家能够阻拦其他国家(不管是大国家还是小国家)去获取先进的人工智能技术。如今,人工智能应用面临着新的瓶颈,那就是教育和想象力。即便如此,教育也逐渐不再成为一个阻碍,因为深度求索用户已经展现出了这样的能力,即无需亲自手动编写一行代码就能够开发出软件代码(其中也包括人工智能代码)。深度求索的免费开源大语言模型能够释放全球南方超过 60 亿人的创新能力。

深度求索所取得的成就无疑给中国在中美技术竞赛方面提供了极为强大的推动力。这一成就的益处远远不只是减轻了美国半导体出口禁令所带来的影响,其更大的潜在价值源自另外两个方面:

扩大的半导体出口带来了机会。通过深度求索,能够在相对廉价但性能受限的硬件平台上运行可扩展、高性能的大语言模型。所以,全球南方市场中,针对特定用例的小型企业和政府的人工智能基础设施的可用市场得到了大大扩展。中国作为全球领先的传统半导体制造商,处于理想位置。它可以向发展中国家销售相对低端的人工智能芯片和后端基础设施,这些国家以前无法负担部署或使用高性能计算基础设施来进行人工智能应用。同时,也可以向这些国家销售基于云的服务。

在人工智能开发者生态系统中提升自身的影响力。深度求索成为了应用程序开发者、研究人员和爱好者的首选大语言模型,这些开发者来自发达国家和发展中国家。其被快速采用后,会带来更快的改进,会有更多可用的服务,会加速创新,也会获得更广泛的社区支持。这样一来,深度求索在未来会成为更多人更具吸引力的选择。它大部分是开源的。这一特性使得任何政府几乎难以对上述改进的使用进行限制。这一特性也使得任何政府几乎难以对上述改进的传播进行禁止。正因如此,它对地缘政治动荡更具抵抗力。

深度求索给中国带来了诸多好处,不过也存在一些可能会触发的不可控风险。作者首先想到,深度求索或许会促使美国放松半导体出口管制,因为美国可能会察觉到这类措施的相对无效性。这种措施或许会带来不利影响,会诱使中国企业再度依赖性能更优的美国技术,进而把收入和研发资金从中国本土的信息通信技术(ICT)价值链初创企业转移出去。与通常的看法不同,中国技术进步的可持续性在遭遇“友好”的美国时,比在遭遇“敌对”的美国时更易受到损害。另一个可能的副作用或许是不可避免的。深度求索的成就,与其他最近的“斯普特尼克时刻”(像“美国小红书大迁移”、两架第六代战斗机平台的试飞,还有 EAST 持续核聚变反应突破 1000 秒等)一同,有可能会激励美国公众和精英们做出更协调、全社会性质的努力,目的是保持对中国的技术领先地位。中国目前没有切实可行的办法来减轻这两种风险,这是很不幸的。

总之,深度求索 R1 的发布具有重要意义。它标志着人工智能及其地缘政治影响正处于一个关键的演变时刻。深度求索以仅为竞争对手所需成本和时间的一小部分,就实现了最先进的性能。这不仅展示了中国日益增长的技术实力,也对全球人工智能格局进行了重塑。美国的半导体制裁无法扼杀中国的创新,美国科技巨头存在潜在的价值重估,还有人工智能在全球南方实现了民主化,这些仅仅是这一突破所引发的变革的开端。随着深度求索的开源模型在全球得到普及,它能够为全球数十亿人赋予力量,促使全球创新加速,并且对现有的技术和经济秩序构成挑战。在这个新时代,赢家会是那些能够借助人工智能的力量去应对人类最为重大挑战的人。他们无论处在什么地方,也无论经济起点是怎样的。

相关内容 查看全部