发布信息

达摩院DyDiT架构:算力砍半视觉生成仍SOTA,推理速度提升1.73倍仅需3%微调成本

作者:软荐小编      2025-04-26 09:01:32     140

DyDiT团队 投稿

量子位 | 公众号 QbitAI

算力砍半,视觉生成任务依然SOTA!

达摩院在 ICLR 2025 上提出的 DyDiT 架构:它能够通过对时间步长与空间区域进行智能的资源分配,把 DiT 模型的推理算力降低了 51%,同时让生成速度提升了 1.73 倍,并且 FID 指标几乎没有损失!

更惊人的是,这一突破仅需3%的微调成本。

该方法引入了动态化调整机制,能够精准地削减视觉生成任务中 50%的推理算力,并且可以有效缓解传统扩散模型的计算冗余问题,相关工作已经开源了。

_质量无损,算力砍半!达摩院视觉生成新架构出道即SOTA|ICLR2025_质量无损,算力砍半!达摩院视觉生成新架构出道即SOTA|ICLR2025

算力砍半效果依然SOTA

DiT 架构是当前主流的生成模型框架。它有效实现了图像的可控生成。它也有效实现了视频的可控生成。这些成果推动了生成式 AI 走向应用爆发。

然而,DiT 架构的多步生成策略存在一些问题,比如推理效率较低,算力存在冗余等。在执行视觉生成任务时,容易导致极高的算力消耗,这就限制了它向更广泛的场景进行落地。

业内提出了一些方法来尝试解决这一问题,比如高效采样、特征缓存以及模型压缩剪枝等。然而,这些方法都是针对静态不变模型的,并且由此衍生出了潜在的冗余浪费问题。

达摩院(湖畔实验室)、新加坡国立大学以及清华大学等联合研究团队在论文《Dynamic Diffusion Transformer》中提出了动态架构 DyDiT。此架构能够依据时间步长和空间区域来进行自适应的计算分配调整。通过这种方式,能够有效地缓解在视觉生成任务中所面临的算力消耗问题。

具体来说,DyDiT 在简单的时间步长时可以使用较窄的模型宽度,这样能减少计算资源;在空间维度方面,它会优先处理含有详细信息的主要对象,从而减少对背景区域的计算资源分配,在提升推理效率以及减少计算冗余的同时,还能保持生成质量。

使用者能够依据自身的资源限制或者部署要求,对目标的计算量进行灵活调整。DyDiT会自动适配模型参数,从而实现效果与效率的最佳平衡。

质量无损,算力砍半!达摩院视觉生成新架构出道即SOTA|ICLR2025_质量无损,算力砍半!达摩院视觉生成新架构出道即SOTA|ICLR2025_

实验结果显示,DyDiT 在众多数据集上展现出高稳定性,并且在各种生成模型下也都有良好表现。

用不到 3%的微调成本,把 DiT - XL 的浮点运算次数(FLOPs)降低了 51%,同时生成速度提升了 1.73 倍,并且在 ImageNet 测得的 FID 得分与原模型相近,二者分别为 2.27 和 2.07。

据透露,DyDiT 的相关训练代码已开源,并且计划将其适配到更多的文生图、文生视频模型上。目前,基于知名文生图模型 FLUX 调试的 Dy-FLUX 也已经在开源项目中上架。

据悉,达摩院今年有论文被 ICLR 2025 录用。这些论文共 13 篇,涵盖多个领域,包括视频生成、自然语言处理、医疗 AI、基因智能等。其中有 3 篇被选为 Spotlight。

论文链接:

技术解读:

开源链接:

相关内容 查看全部