发布信息

英伟达CEO黄仁勋在SIEPR经济峰会发表惊人言论:竞争对手免费产品仍比我们贵

作者:软荐小编      2025-03-01 10:01:16     168

【文/观察者网专栏作者 潘攻愚】

我们的产品即使在竞争对手免费给到客户的情况下,依然比他们的产品便宜。

英伟达 CEO 黄仁勋在 2024 年 3 月份 SIEPR 经济峰会的主题演讲中,回答了斯坦福大学查尔斯·R·施瓦布经济学名誉教授约翰·肖文的提问。

潘攻愚:“即使我们对手的产品免费,我们还是比他们便宜”__潘攻愚:“即使我们对手的产品免费,我们还是比他们便宜”

这一席话在当时的半导体圈引发了很大的波澜。竞争对手的产品是免费送的,然而竟然还比英伟达的 GPU 要贵。那是不是意味着对手们得大规模赔钱才能够和英伟达进行竞争呢?

黄仁勋在公众场合通常比较谦逊节制,不过偶尔也会展现出卓越的一面。那一次,他可能实在是无法忍受发问人对英伟达竞争态势的质疑,所以语调变得有些“不一样”了。他口中所说的竞争对手,乍一看像是 AMD 或者英特尔,但细细品味,其实是说给另一个领域的竞争对手听的,也就是 ASIC(专用芯片)的战场。

须知,英伟达在高性能 GPU(包含 HPC 和 AI 加速器领域)方面,在全球所占据的份额接近 450 亿美元。而 2023 年的 ASIC 市场,即使算满也只有 200 亿美元。从目前来看,英伟达的高垄断性使得暂时无需担心以博通、Marvell 为代表的定制化芯片会对其市场份额造成侵蚀。

但肯定不能说黄仁勋不着急。在 AI 大潮的推动下,像 TPU 在 Google Cloud 上的应用,以及亚马逊 AWS 的 Trainium/Inferentia ,使得不少公司在对 ASIC 方案进行考虑。2023 年曾有风传英伟达也想要进入 ASIC 这个领域,为美国的诸多 CSP(云服务商)提供定制化服务。

OpenAI也在“背刺”英伟达?

路透社近日有报道称,OpenAI 正在开发其首款自家的人工智能芯片,目的是减少对英伟达芯片的依赖。路透社还宣称,OpenAI 会在近几个月内确定该芯片的最终设计,并且会把方案交给台积电进行流片测试。

多年来,OpenAI 一直是英伟达的重要客户之一。他们若考虑非通用性 GPU 方案,就如同对英伟达做出了一种伤害行为。

OpenAI 的训练任务高度依赖英伟达的高性能 GPU,像 A100 和 H100 等。OpenAI 在 2020 年的论文里曾表明,GPT - 3 的训练运用了大概 1 万块 V100 GPU。OpenAI 没有公开透露其从英伟达采购的 GPU 的具体数量。这类信息一般被当作商业机密,或者与合作伙伴协议相关。所以,外界很难获取到准确的数据。

他们之间的合作模式除了采购 GPU 外,还有两点需要指出:其一,OpenAI 对英伟达的 CUDA 并行计算平台和 cuDNN 加速库有深度依赖,这样能使 GPU 在深度学习任务中的性能达到最大化;其二,英伟达与 OpenAI 存在间接合作,通过合作伙伴(如微软 Azure、亚马逊 AWS)为 OpenAI 提供云 GPU 资源,以满足其弹性计算的需求。

_潘攻愚:“即使我们对手的产品免费,我们还是比他们便宜”_潘攻愚:“即使我们对手的产品免费,我们还是比他们便宜”

英伟达首个DGX H200给到OpenAI

OpenAI 在考虑采用更专用的硬件 ASIC。它跟在微软 Maia AI 芯片和谷歌 TPU 的后面。主要是因为对英伟达已经忍受很久了。

这种定价权在某种程度上削弱了 OpenAI 振臂一呼搞“星际之门”的领导权。

OpenAI 迈出这一步,是因为看到了商用能够实地落地的可能性。它是踩着谷歌 TPU 的辕辐而前进的。

TPU 是谷歌为机器学习而设计的 ASIC,尤其在神经网络训练和推理方面。它从硬件到软件进行了全栈优化,这样就避免了 GPU 所具有的通用计算冗余。

谷歌单芯片 TPU v4 的 FP16 性能约为 275 TFLOPS,英伟达 H100 的 FP16 算力是 400 TFLOPS,二者看起来差距较大。然而,TPU v4 能够通过“打群架”的方式来避免单打独斗的劣势。并且,TPU 的专用推理硬件在低延迟场景中具有更优异的表现。

英伟达高端 GPU 需要 HBM。TPU 采用的 HBM 高带宽内存与计算单元紧密耦合,这样能减少数据搬运开销。而英伟达 GPU 需要通过显存管理优化,才能够避免瓶颈。

另外还有很重要的一点,就呼应到了本文开头的话题:成本。

在谷歌云平台,TPU按需计费的成本有可能比同等算力的 GPU 实例要低。对于长期训练任务或者批量推理来说,TPU 更具有性价比。TPU 是作为托管服务存在的,用户不用去操心底层硬件的运维事宜。而如果自建 GPU 集群的话,就需要投入更多的运维资源。

这一切使得 OpenAI 与英伟达有了某种程度上的离心力,也加速了它们软脱钩的念想。

尽管如此,采用 ASIC 方案存在明显局限性。TPU 绑定了特定框架,如 TensorFlow 和 JAX。GPU 则支持更广泛的开源工具,并且便于私有化部署。此外,ASIC 一旦进行流片就无法修改,而 GPU 可以通过架构升级和软件优化来适应新的需求。

英伟达GPU的“专用特性”

黄仁勋在业界有着对危机感的敏锐嗅觉。他有一句名言,即要时刻做好企业在一个月内破产的准备,这句名言享誉全球。他一直督促自己去洞察所有可能出现的挑战和危机。

ASIC的冲击,他也洞若观火。

在最近两代 AI 加速器(Grace Hopper 和 Blackwell 这两代)中,他实际上已经采用了“通用+专用”的混合架构。他知晓,AI 训练与推理场景以及科学计算等场景,对算力的需求呈现出爆炸式的增长态势,而通用架构难以满足能效和性能方面的要求。专用硬件能够大幅度降低大模型的训练成本,比如 Blackwell 的 FP4/FP6 支持稀疏计算。

国内某知名的 GPU 图形渲染供应商的市场主管向心智观察所表示,通用芯片的性能提升逐渐变得缓慢,而通过领域专用架构(DSA)来实现与其他产品的差异化,将会成为一种必然的选择。

Grace Hopper 正在增加专用硬件单元,其中包括针对深度学习矩阵运算优化(如 FP16/FP8 精度、稀疏计算)的 Tensor Core,以及专用于光线追踪的硬件加速的 RT Core。Blackwell 也在增加专用硬件单元,其针对大规模 AI 集群做了通信优化,比如像 Grace Hopper 的芯片间互连。并且 Blackwell 架构还直接面向大语言模型(LLM)做了硬件加速的 Transformer 引擎。

英伟达看到了谷歌 TPU 以及亚马逊 Trainium 等专用 AI 芯片所带来的威胁,这一切都表明了英伟达需要通过专用化来巩固自身的技术壁垒,从而促使英伟达不得不采取这样的行动。

需要指出的是,英伟达的高端 GPU 正朝着领域专用架构(DSA)的方向发展。它的本质依然是以通用性作为基础,通过专用模块来提升关键场景的效率,这是一种混合模式。并且,它与 ASIC 的完全固化设计存在本质上的区别。

相关内容 查看全部