在正式介绍 Dynamo 之前,黄仁勋直接向 DeepSeek 表达了敬意。他让 Llama-3.3-70B 与 DeepSeek-R1-671B 进行比较,看看谁能更得体地回答婚礼餐桌座位安排的问题。Llama-3.3-70B 花费了 439 个 token,但回答错误;DeepSeek-R1-671B 花费了 8559 个 token,回答正确。
黄仁勋进一步阐述道,有人觉得 R1 较小,但实际上它并不小,其参数规模达到了 6710 亿。未来,这类模型有可能达到万亿参数的级别。要将如此庞大的模型和工作负载合理地分配到 GPU 上,这中间涉及到流水线并行、张量并行和专家并行等方面,并非易事。有时需要对延迟进行优化,有时需要对吞吐量进行优化,有时还需要对批处理方式进行优化。这都得靠一个叫做Dynamo的操作系统来协调。
这是第二次向 DeepSeek 表达敬意。黄仁勋在演讲中并未直接提及这一点。然而,我们要指出,但凡关注 DeepSeek 开源周的人,都对 Dynamo 的技术极为熟悉。
目前业内尚未有关于 Dynamo 实际性能的完整测评。从 Github 上的产品文档可知,它的架构以及特性包含:
将预填充与解码推理分开进行处理,这样能使 GPU 吞吐量达到最大化,并且可以同时对吞吐量和延迟进行平衡。
2,动态调度GPU,根据需求变化优化性能。
3,智能路由大模型请求,避免重复计算KV缓存。
4,加快数据传输,通过NIXL缩短推理等待时间。
5,将KV缓存分担出去,利用多层内存提升系统吞吐量。
半导体及 AI 研究机构 Semianalysis 指出:智能路由达成了预填充阶段与解码阶段的负载平衡;动态调度 GPU 使得预填充和解码阶段的 MoE 模型不同专家间实现了负载平衡;若要将数据从预填充节点传输到解码节点,就需要低延迟高带宽的通信传输库,其中 NCCL 和 NIXL 负责此项工作;KV 缓存卸载管理能够释放预填充节点的容量,以处理更多传入数据量,或者能够减少所需的预填充部署规模。这些听起来是不是有些耳熟能详。
再来回顾一下,DeepSeek年初开源周都介绍了什么:
FlashMLA 是一种 GPU 解码内核,它针对可变长度序列进行了优化,同时也针对分页 KV 缓存进行了优化。
2,DeepEP,面向MoE模型,优化了通信速度和效率。
DeepGEMM 能够在兼顾数据精度的情况下提升矩阵乘法性能,并且通过这种方式间接支持推理效率。
DualPipe 采用双向数据流设计,这样能减少流水线的空闲情况,进而提升 GPU 的利用率。
EPLB 进行智能流量调度,能够让混合专家负载均匀分布,这样就可以降低通信开销。
Profile-data 可以分析计算与通信的重叠状态,并且能够帮助优化效率。
7,3FS,高效数据访问和KV缓存管理的并行文件系统。
简单来说,两者在优化 GPU 利用率方面的目标是一致的,思路相近;在优化通信效率方面的目标是一致的,思路相近;在优化数据处理方面的目标是一致的,思路相近。实际上,在英伟达 Dynamo 的产品文档中,确实明确提到了 DeepSeek 对 KV 缓存问题的贡献。
KV 缓存是对之前出现过的问题以及响应等中间结果的缓存。过去,大模型推理在对 KV 缓存的管理方面不够精细,从而导致了频繁的重复计算。这是对资源的一种浪费。DeepSeek 在 V3 中提出了解决办法,并且在 R1 中进一步进行了改进,最大限度地压榨了算力。在开源周中所提到的 FlashMLA 与 3FS,也都包含了 KV 缓存优化相关的内容。
目前,DeepSeek 对于输入时缓存未命中的 API 定价,在标准时间内,R1 模型每百万 token 为$0.55;而对于输入时缓存命中的 API 定价,在标准时间内,R1 模型每百万 token 为$0.14,未命中时的定价比命中时高出约 3 倍。
在 DeepSeek 额外的开源日(这是第 6 天)中,研究人员透露了更多的运营数据。545%的理论成本利润率吸引了市场的注意力,而市场却选择性地忽视了 DeepSeeK 公布的 KV 缓存命中率达到 56.3%。
可以说,DeepSeek 开启大模型商品化的关键在于优化 KV 缓存等技术创新。更低的推理成本,一方面能够转化为 AI 应用的利润率;另一方面,通过 AI 应用厂商的让利,也能够转化为 AI 应用的用户规模。
Semianalysis 发出感叹,英伟达推出的 Dynamo,其本质是 DeepSeek 技术创新的民主化。英伟达发布更多 Dynamo 官方技术文档后,人们能够更快且更多地了解这些技术创新到底意味着什么。
可以再往前推进一步。DeepSeek 在中国大模型时代是开源方面的领先者,但并非唯一的。阿里巴巴的 Qwen 系列模型在 HuggingFace 上已经变得最为受欢迎。由于 DeepSeek 的推动,更多的中国大模型企业正陆续加入到开源生态当中。
此内容来源于 dynamo/docs/architecture.md 位于 main 分支的 ai-dynamo/dynamo 仓库。
英伟达 Dynamo 的官方文档中存在不少小彩蛋。其中,Dynamo 参考了另一家中国大模型初创企业对于内存瓶颈的思考,同时也参考了字节跳动的开源项目。
其中,Mooncake 是月之暗面的底层推理服务平台,其技术框架在去年 12 月开源。AIBrix 原本是字节跳动为企业内部多个业务用例而打造的一款可扩展且经济高效的推理优化的云原生解决方案,在今年 2 月正式开源。
英伟达的芯片正在逐渐失去中国市场。中国的开源生态以及技术创新正借助英伟达而扩散到全球。