软件行业资讯

AIxiv 专栏：机器之心促进学术交流，欢迎投稿分享优秀工作

 作者：软荐小编  2024-10-30 10:01:06  136

超越边界汉克斯_超越边界第二季_

AIxiv专栏是机器之心发布学术和技术内容的专栏。几年来，机器之心AIxiv专栏已收到2000余篇报道，覆盖全球各大高校和企业的顶级实验室，有效促进了学术交流和传播。如果您有优秀的作品想要分享，请随时投稿或联系我们进行举报。投稿邮箱：liyazhou@jiqizhixin.com； zhaoyunfeng@jiqizhixin.com

D-FINE的作者均来自中国科学技术大学。第一作者为中国科学技术大学博士生彭岩松（）。他的研究重点是实时目标检测和神经形态视觉。在AAAI、ICCV、CVPR等国际顶级会议上以第一作者发表多篇论文。本文由吴峰教授、孙晓燕教授和张悦副研究员共同指导。其他作者包括中国科学技术大学博士生李河北和硕士生吴培熙。

超越边界汉克斯_超越边界第二季_

介绍

在当前严重内卷化的实时物体检测（Real-time ObjectDetection）领域，性能和效率始终是难以平衡的核心问题。现有的SOTA方法绝大多数仅依赖于更高级的模块替换或训练策略，导致性能逐渐饱和。

为了打破这一瓶颈，中国科学技术大学的研究团队提出了D-FINE，重新定义了边界框回归任务。与传统的固定坐标预测不同，D-FINE创新了两种方法：细粒度分布优化（FDR）和全局最优定位自蒸馏（GO-LSD）。通过将回归任务转变为细粒度的分布式优化任务，D-FINE不仅显着简化了优化难度，而且可以更准确地对每个边界的不确定性进行建模。此外，D-FINE将定位知识集成到模型输出中，并通过高效的自蒸馏策略在每一层共享这些知识，从而在不增加额外训练成本的情况下实现进一步显着的性能提升。

超越边界第二季__超越边界汉克斯

凭借这些创新，D-FINE 在 COCO 数据集上在 78 FPS 下实现了 59.3% 的平均精度（AP），远远超过 YOLOv10、YOLO11、RT-DETR v1/v2/v3 和 LW-DETR 等竞争对手。成为实时目标检测领域新的领导者。目前，D-FINE的所有代码、权重和工具都是开源的，包括详细的预训练教程和自定义数据集处理指南。

超越边界汉克斯__超越边界第二季

视频链接：

研究团队使用 D-FINE 和 YOLO11 对 YouTube 上的复杂街景视频进行目标检测。尽管存在逆光、模糊、密集遮挡等不利因素，D-FINE-X仍然成功检测到几乎所有目标，包括背包、自行车、红绿灯等微小且难以察觉的目标，置信度准确，模糊边缘定位准确。度明显高于YOLO11x。

细粒度分布优化 (FDR)

FDR（Fine-grained Distribution Refinement）将检测框生成过程分解为：

1.初始框预测：与传统的DETR方法类似，D-FINE解码器将对象查询转换为第一层中的几个初始边界框。这些边界框仅用于初始化，不需要特别精确。

2.细粒度分布优化：与传统方法不同，D-FINE的解码层并不直接预测新的边界框，而是根据初始边界框生成四组概率分布，并通过逐层优化进行调整。这些概率分布本质上是检测帧的“细粒度中间表示”。 D-FINE 可以微调这些表示，在不同程度上独立调整每个边缘。

具体流程如图所示：

超越边界汉克斯__超越边界第二季

将边界框回归任务重铸为FDR具有以下优点：

1.过程简化：模型在传统L1损失和IoU损失的优化基础上，通过标签与预测结果之间的“残差”进一步约束这些中间状态的概率分布。这使得每个解码层能够更有效地关注当前的定位误差。随着层数的增加，优化目标变得更简单，从而简化了整体优化过程。

2.对复杂场景更加鲁棒：FDR中的概率水平本质上反映了模型对边界微调的置信度。这使得 D-FINE 能够独立地对不同网络深度的每条边的不确定性进行建模，从而使模型能够真正了解定位的效果。在遮挡、运动模糊、弱光等复杂的实际场景中，D-FINE表现出更强的鲁棒性，比四个固定值直接回归的方法鲁棒性更强。

3.灵活的优化机制：D-FINE通过加权求和将概率分布转化为最终的边界框偏移值。指数加权函数W(n)确保在初始框准确的情况下可以进行微调，并在必要时提供较大的修正。

4.可扩展性：FDR将回归任务定义为与分类任务一致的概率分布预测问题，这使得目标检测模型能够更好地受益于知识蒸馏、多任务学习、分布优化等更多领域的创新。从而更有效地适应和整合新技术，突破传统方法的局限性。

全局最优定位自蒸馏机制GO-LSD

GO-LSD（全局最优定位自蒸馏）可以轻松地将知识蒸馏应用于 FDR 框架检测器。

基于FDR框架的目标检测器不仅可以实现知识迁移，而且可以保持一致的优化目标。

新晋诺贝尔物理学奖得主杰弗里·辛顿在《在神经网络中蒸馏知识》一文中提到：概率就是“知识”。 FDR将概率分布转化为网络输出，并配备定位知识。因此，只需计算 KL 散度损失就可以将这种“知识”从深层转移到浅层。因为FDR架构中的每个解码层都有一个共同的目标，那就是减少初始边界框和真实边界框之间的残差。因此，最后一层生成的精确概率分布可以作为前面各层的最终目标，并指导前面的层进行蒸馏。

由于FDR架构中的每个解码层都有一个共同的目标：减少初始边界框和真实边界框之间的残差；因此，最后一层生成的准确概率分布可以作为前面各层的最终目标，并蒸馏引导前几层。

研究团队进一步提出基于FDR框架的全局最优定位自蒸馏GO-LSD，实现了网络层之间的定位知识蒸馏，进一步扩展了D-FINE的能力。具体流程如下：

_超越边界第二季_超越边界汉克斯

FDR和GO-LSD创造了一个双赢的“合成”：随着训练的进行，最后一层的预测会变得越来越准确，而它生成的软标签也可以更好地帮助前面的层改进预测。准确性。反过来，前几层将更快地定位准确位置。这相当于深度优化任务的简化，进一步提高了整体准确性。

实验结果

超越边界汉克斯_超越边界第二季_

在COCO数据集上，D-FINE-L和D-FINE-X实现了54.0%和55.8%的AP，延迟分别为8.07 ms（124 FPS）和12.89 ms（78 FPS），远远超过所有其他实时Object检测器击败 YOLOv10 (53.2%, 54.4%)、YOLO11 (53.4%, 54.7%) 和 RT-DETRv2 (53.4%, 54.6%)。

在 Objects365 上进行简单的监督预训练后，D-FINE 的准确率达到了 59.3% AP。在paperwithcode网站上的MS COCO基准上的实时物体检测上，D-FINE的速度和性能远远超过其他方法，取得了Top1的成绩。

与基线RT-DETR相比，D-FINE-L和D-FINE-X显着减少了参数数量和计算复杂度。在推理速度显着提高的同时，性能分别实现了 1.8% 和 3.2% 的显着提升。

_超越边界第二季_超越边界汉克斯

更轻量级的D-FINE-S和D-FINE-M在T4 GPU上实现了48.5%和52.3%的AP，延迟分别为3.49 ms（287 FPS）和5.62 ms（178 FPS），超过YOLOv10（46.3%， 51.1%）、YOLO11（46.6%、51.2%）和 RT-DETRv2（48.1%、49.9%）。预训练后，D-FINE-S和D-FINE-M分别达到了50.7%和55.1%的AP。

超越边界汉克斯_超越边界第二季_

尽管FDR和GO-LSD可以显着提高性能，但它们并不能直接使网络更快或更轻。为了解决这个问题，研究团队对DETR架构进行了轻量化。这些调整不可避免地会导致一些性能下降，但 D-FINE 方法最终实现了速度、参数、计算复杂度和性能之间的平衡。下表显示了从基线到 D-FINE 的逐步修改过程。每一步都显示了模型在 AP、参数数量、延迟和 FLOP 方面的变化。

超越边界第二季_超越边界汉克斯_

研究团队将FDR和GO-LSD应用于一系列非实时DETR检测模型。实验表明，在几乎不需要额外参数和计算能力的情况下，AP可以提高高达5.3%，证明了该方法的鲁棒性和泛化性。

根据消融实验，包含FDR的检测器与原始检测器在速度、参数量、计算复杂度上几乎没有差异，可以实现无缝替换。

超越边界第二季__超越边界汉克斯

研究团队分析了训练成本，发现额外的时间和视频内存消耗主要来自生成用于监督分布的 FGL Loss 标签。通过D-FINE的进一步优化，这些额外的训练时间和显存占用分别控制在6%和2%以内，总体影响不大。

超越边界第二季__超越边界汉克斯

D-FINE 预测的可视化

以下是D-FINE在各种复杂检测场景下的预测结果。这些场景包括遮挡、低光、运动模糊、景深效果和密集场景。可见，面对这些具有挑战性的场景，D-FINE能够产生准确的定位结果。

_超越边界第二季_超越边界汉克斯

下图展示了第一层和最后一层的预测结果，以及对应的四个边的分布以及加权分布。可以看到，随着分布的优化，预测框的定位会变得更加准确。

超越边界第二季_超越边界汉克斯_

总结和局限性

D-FINE将边界框回归转化为逐层优化的概率分布预测，显着提高了模型在多任务场景下的兼容性。 D-FINE为目标检测模型的设计提供了新的思路。未来可以考虑进一步挖掘D-FINE在跨任务学习和模型轻量化方面的潜力。

D-FINE也有一些局限性：与大型模型相比，轻量版D-FINE的性能提升不太明显。这可能是因为浅层解码器的预测精度不高，无法有效地将定位信息传递到前几层。

未来的研究可以考虑提高轻量级模型的定位能力，同时避免增加推理延迟。一种想法是继续改进架构设计，尝试在训练期间引入额外的异构解码层，并在推理期间丢弃这些层以保持模型的轻量级。如果训练资源充足，也可以直接用大模型来蒸馏小模型，而不是依靠自蒸馏。

思考与展望

2024年，实时目标检测领域经历了多个版本迭代，YOLO系列推出了YOLOv9、YOLOv10、YOLO11。 DETR系列继RT-DETR之后又陆续推出了LW-DETR、RT-DETRv2和RT-DETRv3。

这两类模型的重要突破本质上得益于相互学习和融合。 RT-DETR引入YOLO的RepNCSP模块来替代冗余的多尺度自注意力层，并通过重新设计轻量级混合编码器实现实时DETR；而YOLOv10借鉴了DETR的匹配策略，训练了额外的一对一检测头，自动过滤密集的anchor预测，避免了NMS后处理，显着提高了速度。此外，YOLOv10和YOLO11还引入了self-attention机制，进一步增强大规模目标的检测性能。

尽管这些改进取得了显着的成果，但社区对未来的发展方向存在疑问：在两类模型融合的背景下，实时物体检测的下一步将如何发展？可以预见，在竞争激烈的目标检测领域，持续更换模块带来的效益将逐渐减少，并可能很快遇到瓶颈。

基于传统框架的训练策略的改进对于一些旧的网络（例如常用的Deformable DETR）可能是有效的，但应用于最新的SOTA网络时，往往很难取得明显的改进，甚至可能产生负面影响影响。特别是对于计算资源有限的小团队来说，如果没有大规模的超参数搜索，即使是复杂的训练策略也无法达到预期的结果。

D-FINE的出现给目标检测带来了新的思维方式。通过引入FDR和GO-LSD，D-FINE重新定义了物体检测中的边界框回归任务。这一创新有望突破当前瓶颈，为实时目标检测领域提供新的发展方向。

下一篇： 2300 亿项目黄了！欧洲半导体计划失败，华为麒麟 9000 却崛起
上一篇： PS 中格式众多，除常用的 JPEG、PNG 和 PSD 格式外，其他格式都有什么用？

软件行业资讯

AIxiv 专栏：机器之心促进学术交流，欢迎投稿分享优秀工作

相关内容查看全部 

一直打骚扰电话的

云蝶科技副总裁刘

Win10是否有必要

联想2024/25财年

和讯投顾黄儒琛解

苹果获批核心专利

任天堂Switch 2游

汉诺威工业博览会

3月15日央视315晚

犹豫好运溜走？关

AIxiv 专栏：机器之心促进学术交流，欢迎投稿分享优秀工作

相关内容 查看全部 

相关内容查看全部 