【文/观察者网专栏作者 潘攻愚】
我们的产品即使在竞争对手免费给到客户的情况下,依然比他们的产品便宜。
英伟达 CEO 黄仁勋在 2024 年 3 月份 SIEPR 经济峰会的主题演讲中,回答了斯坦福大学查尔斯·R·施瓦布经济学名誉教授约翰·肖文的提问。
这一席话在当时的半导体圈引发了很大的波澜。竞争对手的产品是免费送的,然而竟然还比英伟达的 GPU 要贵。那是不是意味着对手们得大规模赔钱才能够和英伟达进行竞争呢?
黄仁勋在公众场合通常比较谦逊节制,不过偶尔也会展现出卓越的一面。那一次,他可能实在是无法忍受发问人对英伟达竞争态势的质疑,所以语调变得有些“不一样”了。他口中所说的竞争对手,乍一看像是 AMD 或者英特尔,但细细品味,其实是说给另一个领域的竞争对手听的,也就是 ASIC(专用芯片)的战场。
须知,英伟达在高性能 GPU(包含 HPC 和 AI 加速器领域)方面,在全球所占据的份额接近 450 亿美元。而 2023 年的 ASIC 市场,即使算满也只有 200 亿美元。从目前来看,英伟达的高垄断性使得暂时无需担心以博通、Marvell 为代表的定制化芯片会对其市场份额造成侵蚀。
但肯定不能说黄仁勋不着急。在 AI 大潮的推动下,像 TPU 在 Google Cloud 上的应用,以及亚马逊 AWS 的 Trainium/Inferentia ,使得不少公司在对 ASIC 方案进行考虑。2023 年曾有风传英伟达也想要进入 ASIC 这个领域,为美国的诸多 CSP(云服务商)提供定制化服务。
OpenAI也在“背刺”英伟达?
路透社近日有报道称,OpenAI 正在开发其首款自家的人工智能芯片,目的是减少对英伟达芯片的依赖。路透社还宣称,OpenAI 会在近几个月内确定该芯片的最终设计,并且会把方案交给台积电进行流片测试。
多年来,OpenAI 一直是英伟达的重要客户之一。他们若考虑非通用性 GPU 方案,就如同对英伟达做出了一种伤害行为。
OpenAI 的训练任务高度依赖英伟达的高性能 GPU,像 A100 和 H100 等。OpenAI 在 2020 年的论文里曾表明,GPT - 3 的训练运用了大概 1 万块 V100 GPU。OpenAI 没有公开透露其从英伟达采购的 GPU 的具体数量。这类信息一般被当作商业机密,或者与合作伙伴协议相关。所以,外界很难获取到准确的数据。
他们之间的合作模式除了采购 GPU 外,还有两点需要指出:其一,OpenAI 对英伟达的 CUDA 并行计算平台和 cuDNN 加速库有深度依赖,这样能使 GPU 在深度学习任务中的性能达到最大化;其二,英伟达与 OpenAI 存在间接合作,通过合作伙伴(如微软 Azure、亚马逊 AWS)为 OpenAI 提供云 GPU 资源,以满足其弹性计算的需求。
英伟达首个DGX H200给到OpenAI
OpenAI 在考虑采用更专用的硬件 ASIC。它跟在微软 Maia AI 芯片和谷歌 TPU 的后面。主要是因为对英伟达已经忍受很久了。
这种定价权在某种程度上削弱了 OpenAI 振臂一呼搞“星际之门”的领导权。
OpenAI 迈出这一步,是因为看到了商用能够实地落地的可能性。它是踩着谷歌 TPU 的辕辐而前进的。
TPU 是谷歌为机器学习而设计的 ASIC,尤其在神经网络训练和推理方面。它从硬件到软件进行了全栈优化,这样就避免了 GPU 所具有的通用计算冗余。
谷歌单芯片 TPU v4 的 FP16 性能约为 275 TFLOPS,英伟达 H100 的 FP16 算力是 400 TFLOPS,二者看起来差距较大。然而,TPU v4 能够通过“打群架”的方式来避免单打独斗的劣势。并且,TPU 的专用推理硬件在低延迟场景中具有更优异的表现。
英伟达高端 GPU 需要 HBM。TPU 采用的 HBM 高带宽内存与计算单元紧密耦合,这样能减少数据搬运开销。而英伟达 GPU 需要通过显存管理优化,才能够避免瓶颈。
另外还有很重要的一点,就呼应到了本文开头的话题:成本。
在谷歌云平台,TPU按需计费的成本有可能比同等算力的 GPU 实例要低。对于长期训练任务或者批量推理来说,TPU 更具有性价比。TPU 是作为托管服务存在的,用户不用去操心底层硬件的运维事宜。而如果自建 GPU 集群的话,就需要投入更多的运维资源。
这一切使得 OpenAI 与英伟达有了某种程度上的离心力,也加速了它们软脱钩的念想。
尽管如此,采用 ASIC 方案存在明显局限性。TPU 绑定了特定框架,如 TensorFlow 和 JAX。GPU 则支持更广泛的开源工具,并且便于私有化部署。此外,ASIC 一旦进行流片就无法修改,而 GPU 可以通过架构升级和软件优化来适应新的需求。
英伟达GPU的“专用特性”
黄仁勋在业界有着对危机感的敏锐嗅觉。他有一句名言,即要时刻做好企业在一个月内破产的准备,这句名言享誉全球。他一直督促自己去洞察所有可能出现的挑战和危机。
ASIC的冲击,他也洞若观火。
在最近两代 AI 加速器(Grace Hopper 和 Blackwell 这两代)中,他实际上已经采用了“通用+专用”的混合架构。他知晓,AI 训练与推理场景以及科学计算等场景,对算力的需求呈现出爆炸式的增长态势,而通用架构难以满足能效和性能方面的要求。专用硬件能够大幅度降低大模型的训练成本,比如 Blackwell 的 FP4/FP6 支持稀疏计算。
国内某知名的 GPU 图形渲染供应商的市场主管向心智观察所表示,通用芯片的性能提升逐渐变得缓慢,而通过领域专用架构(DSA)来实现与其他产品的差异化,将会成为一种必然的选择。
Grace Hopper 正在增加专用硬件单元,其中包括针对深度学习矩阵运算优化(如 FP16/FP8 精度、稀疏计算)的 Tensor Core,以及专用于光线追踪的硬件加速的 RT Core。Blackwell 也在增加专用硬件单元,其针对大规模 AI 集群做了通信优化,比如像 Grace Hopper 的芯片间互连。并且 Blackwell 架构还直接面向大语言模型(LLM)做了硬件加速的 Transformer 引擎。
英伟达看到了谷歌 TPU 以及亚马逊 Trainium 等专用 AI 芯片所带来的威胁,这一切都表明了英伟达需要通过专用化来巩固自身的技术壁垒,从而促使英伟达不得不采取这样的行动。
需要指出的是,英伟达的高端 GPU 正朝着领域专用架构(DSA)的方向发展。它的本质依然是以通用性作为基础,通过专用模块来提升关键场景的效率,这是一种混合模式。并且,它与 ASIC 的完全固化设计存在本质上的区别。