发布信息

中国科大苏州研究院GNN训练系统论文被SIGMOD 2025录用,突破GPU显存限制

作者:软荐小编      2025-02-25 10:00:58     116

2 月 11 日,中国科大苏州高等研究院医学影像智能与机器人研究中心的 DDL 实验室宣布了一个消息。2 月 23 日,IT 之家得知了这一消息。该团队在大规模图神经网络(GNN)训练系统方面的研究论文被国际知名学术会议 ACM International Conference on Management of Data(SIGMOD)2025 录用。

瓶颈突破器是什么_瓶颈位置是什么意思_

图神经网络(GNN)的主流训练框架有 DGL 和 PyG 等。这些框架利用 GPU 的并行处理能力,从图数据中提取结构信息。它们在推荐系统、自然语言处理、计算化学和生物信息学等领域展现出了卓越的性能。

GPU 在 GNN 训练中提供了强大的计算优势。但其显存容量有限。有限的显存容量难以容纳庞大的图数据。所以现有 GNN 系统在大规模图数据上的扩展性方面仍面临挑战。

对此,DDL 实验室团队提出了一种新的框架,名为 Capsule,此框架属于核外(Out-of-Core)GNN 训练框架,为大规模图神经网络训练提供了高效的解决方案。

该系统与现有的核外 GNN 框架不一样。它利用图划分和图裁剪策略,把训练子图结构及其特征都完全放进了 GPU 显存里。这样就消除了在反向传播过程中 CPU 与 GPU 之间的 I/O 开销。进而使系统性能得到了显著提升。

Capsule 设计了基于最短哈密顿回路的子图加载方式,还制定了流水线并行策略,以此进一步优化了性能。并且,Capsule 具有即插即用的特性,能够将其无缝集成到主流开源 GNN 训练框架当中。在大规模真实图数据集上,Capsule 与现有的最好系统相比,在仅使用 22.24%的内存时,能带来最高 12.02 倍的性能提升,并且还提供了关于训练所得嵌入方差的理论上界。

这一成果具有重要意义,它标志着我国在图计算系统领域取得了突破。此突破为一些场景提供了全新解决方案,这些场景包括社交网络分析以及生物医学图谱构建等,而这些场景都需要处理超大规模的图数据。

IT之家附论文链接:

相关内容 查看全部