发布信息

英伟达H20需求激增,价格暴涨10万,AI推理需求成主要驱动力

作者:软荐小编      2025-03-19 15:01:11     148

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

什么?H20都变抢手货,涨价10万那种?!

最近有市场消息传出。原本不被看好的英伟达 H20 咨询量大幅上升,上涨了几十倍。8 卡 H20 机器的价格在年前的基础上上涨了十万,目前单价约为 110 万。有从业者做出预测,认为“价格不会下降了”。

要知道,H20 是专门为中国市场定制的版本。在显存带宽等方面,它受到了明显的限制。其性能以及性价比,都远远比不上 H100。

如今市场风向发生了改变。业内人士透露,某互联网大厂已经订购了 10 万到 20 万张卡。整个市场 H20 的订单数量都有了大幅度的提升。

背后原因,直观来看是DeepSeek热潮。更深入则是——

AI推理需求爆了。

H20 的性能仅为 H100 的十分之一。然而,它在做推理方面是足够的。其显存是足够的,适合运行大规模参数模型。并且,它的价格还更为便宜。

AI Infra 厂商 PPIO 派欧云的联合创始人兼 CEO 姚欣向量子位透露,在去年年底的时候,H20 并非如此抢手。然而,到了春节之后,情况发生了变化,呈现出另一番景象,AI 算力的供需正处于极速的变化之中。

英伟达 CEO 黄仁勋在最新一季财报发布之后做出了相应的表示,他指出当前 AI 模型所需要的算力比之前的模型要多出 100 倍,而推动算力需求提升的关键因素是 AI 推理。

见微可知著,AI 算力行业的风向已然发生了变化,新的机遇也正在酝酿之中。

DeepSeek重构算力逻辑,推理需求面临爆发

DeepSeek 通过算法创新对 AI 算力逻辑进行了重构,促使 AI 计算从“训练为主”的范式转变为“推理为主”的范式,进而使得 AI 推理需求全面爆发。

首先来看DeepSeek做了什么?

它今年开源了两款模型,这两款模型在架构方面实现了训练推理效率的提升,同时在算法上也实现了训练推理效率的提升。

DeepSeek-V3采用了 MoE(混合专家模型)架构。在 AI Infra 层面,它提出了大规模跨节点专家并行(Expert Parallelism/EP)。

EP 让 batch size 得到了大幅增加,这样一来就提升了 GPU 矩阵乘法的效率,也提高了吞吐。专家模型被分散在了不同的 GPU 上,每个 GPU 只需计算少量的专家(也就意味着更少的访存需求),进而降低了延迟。

DeepSeek-V3 的专家模型数量有了增加,从其上一版的 160 个提升到了 256 个。“大量小专家”这种模型架构能够进一步减少在单次推理时被激活的参数量。

第二,DeepSeek-R1-Zero开启了利用强化学习提升语言模型推理能力的进程。在没有任何监督数据的条件下,通过单纯的强化学习过程实现自我进化,进而获得了推理能力。DeepSeek-R1运用了 FP8 混合精度训练框架以及动态学习率调度器等技术,把训练成本降低至 560 万美元,比 OpenAI 的成本低很多。同时还能将模型能力蒸馏到更小的密集模型中。

这种低成本模式使得模型能够更广泛应用于AI推理场景。

其次,为什么 DeepSeek 能够成为促使算力趋势发生转变的那个引发事件呢?

从大模型的整体发展进程方面来看,预训练的 Scaling Law 已经呈现出放缓的态势,而推理 Scaling Law 则成为了新的发展方向。

推理 Scaling Law 的核心在于利用增加推理时的计算资源(像推理时间、算力等)去提升模型性能。以 o1 为代表的推理模型,是在推理阶段引入了多步骤的思维链以及强化学习,从而显著提升了推理能力,这使得推理计算需求有了大幅的增加。

o1 模型好用,然而它不开源。DeepSeek 因这个情况而出现,它给全行业提供了一个性能优异且开源的可替代方案,一下子就改变了整体的状况。

DeepSeek 具有低成本、高性能的特点,从而在全社会引发了热潮。普通人可以免费用到它,大中小企业也能够把 DeepSeek 系列模型与自身业务进行融合。

尤其是在 ToB 领域,优质开源模型消除了企业在数据维度方面的担忧。因为没有人愿意把自己或用户的数据无偿地提供给闭源模型用于训练。与此同时,DeepSeek 暂时没有将模型进行商业化的打算,它更接近于真正意义上的开源。这既点燃了企业对 AI 的热情,又加快了 AI 的落地进程,使得推理需求达到了前所未有的爆发程度。

由此,量变引发质变,AI计算的需求以及底层逻辑发生变化。

预训练和推理计算相比,推理计算在硬件门槛方面要求更低,并且在集群建设等方面要求也更低。

超大规模集群不再是必要的了。小集群以及单机,将会成为未来 AI Infra 的主要特性。

PPIO 姚欣结合 DeepSeek 的一系列动态以及行业现状进行了分析。DeepSeek 提出的跨节点专家并行系统,在一定程度上展现出了分布式的理念。它将不常使用的专家模型集中在一台机器上,而将常用的专家模型分配更多的计算能力。通过这种方式,形成了调度上的平衡。

这使得算力行业的深层逻辑发生了进一步的扭转。之前大家都在期盼英伟达能够在硬件层面上带来更优的推理性能,而现在借助 EP 的途径,能够利用 H800 跑出 H100 的性能。

它解释了 DeepSeek 能够影响英伟达股价的原因。原因在于,由于进行了系统优化,英伟达底层硬件所具有的那种深度的护城河已不再那么明显了。

由此可以看到,原本不被大厂所推崇的 H20 这样的推理计算卡开始变得抢手。并且更进一步的是,英伟达本身的地位也会受到影响。

姚欣认为,在未来,英伟达一家独大的局面将会发生改变。在推理时代,推理芯片将会呈现出百花齐放的态势。例如,依据 DeepSeek 研究人员的测试结果可以得知,在推理任务中,昇腾 910C 的性能能够达到 H100 的 60%。

这对算力供给侧的结构和逻辑产生了进一步的影响。具体而言,就是 AI Infra 架构发生了转变。

哪个方向该去做呢?即将爆发的 AI 应用落地浪潮已经给出了指引,那就是优化与降本。

AI Infra扛起推理时代成本优化重任

预训练时代和推理时代有所不同,推理时代对云计算以及 AI Infra 有着新的需求。

预训练时代,云厂商所提供的服务更侧重于一个裸金属的训练环境。因为是集中式的集群,每一台机器几乎都处于满负荷运行状态,所以云厂商能够进行优化的空间较为有限。推理时代,每个企业更倾向于选取公有云服务的部署模型。

这意味着云厂商接下来的竞争点在于从不同卡型到模型层进行全栈优化。

不过为啥由AI Infra/云厂商来做?

在技术底层方面,AI Infra/云厂商有优势;在实际成本优化方面,AI Infra/云厂商也有优势。

从技术的角度来看,不是所有的 AI 厂商都拥有处理高并发的经验,不是所有的 AI 厂商都拥有处理高流量的经验,不是所有的 AI 厂商都拥有处理高弹性的互联网服务的经验。

前不久 DeepSeek 公布了成本利润率理论值可达 545%,这一消息引发了诸多业内的争议。

PPIO姚欣表示:

作为一个曾服务过 4.5 亿用户的创始人,在实际中,所有互联网用户的请求必然有波峰和波谷,一天内用户请求的变化呈现为一条曲线。倘若在最高峰之时,突然变为一条直线,那就意味着在那个时间段,用户请求无法进入。

所以总结而言,春节期间 DeepSeek 的服务出现崩溃状况。这导致其无法满足用户的需求,也无法为企业提供服务。

DeepSeek 的服务和技术架构需要“弹性”算力才能解决这类问题。在春节期间,PPIO 派欧云第一时间接入 DeepSeek,通过分布式推理和大规模算力调度,实现了更大弹性的负载均衡,保障了客户的服务质量和稳定性。

另外,在基础设施建设上,AI Infra厂商更有先天优势。

其中有一部分玩家会自建 IDC 并提供多种算力服务,像阿里云这类玩家就是如此;另外有一部分玩家则选择通过分布式网络来提供算力服务,这些玩家不自建 IDC 也不购入 GPU,而是借助独特的算力共享调度方式,比如 PPIO 派欧云这类玩家。

前者能够提供的综合性服务比后者多。后者在性价比方面以及资源调度上具有优势。

PPIO 的分布式架构打破了传统集中式架构的瓶颈。它为企业降低了运维压力,还提升了系统的处理效率。通过 PPIO 提供的 AI 推理平台,企业无需自行部署后台服务,直接调用 API 服务,不用自行运维,成本减少了 40%。

在速度方面,因为 PPIO 拥有遍布全球的分布式云服务网络,所以不管用户处于什么地方,都能够找到距离自己较近的算力节点,进而获得 20 毫秒级的低延迟体验。PPIO 以独特的方式调用全国范围内的算力节点,能够给企业用户提供更具弹性、更稳定且更划算的 AI 推理服务。

据了解,在整个春节期间,PPIO 面向 ToB 方向的 DeepSeek 服务可用性达到了 99.9%,并且没有 TPM 限制。其关键在于底层具有足够的弹性。目前,PPIO 平台的日均 tokens 消耗量已经超过了 1300 亿,与“六小龙”的日均 tokens 消耗量大致相同。

在算法层面,PPIO 提出了 KV Cache 稀疏化压缩算法,也提出了 Hydra Sampling 投机采样技术,还提出了端到端 FP8 推理技术,这三大核心技术进一步突破了显存、算力和带宽对大模型推理性能的限制。基于此,PPIO 能够快速适配和优化各种开源大模型。例如,PPIO 算力云产品已经为百川智能提供了大规模的 AI 推理服务。

姚欣表示,只有 AI Infra 公司能够提供具备足够高性能且低成本的基础建设,使得大量 AI 应用的收入能够足以覆盖所有的推理成本,才会迎来 AI 应用落地的大爆发,届时用户也将迎来 AI 应用的免费时代。

DeepSeek 挥动臂膀之后,需要全产业的上、下游共同努力合作,才能够进一步促使大规模应用落地加速。

如今,值得关注的那些玩家纷纷站出来了。他们在承接流量的同时,还更进一步地推进了新浪潮的发生。而 AI Infra 玩家们的动作,仅仅只是其中的一种表现而已。

越来越多的产业伙伴加入了,庞大的需求和市场正在酝酿之中。

趋势转变之后,又是一个新开始。

相关内容 查看全部