发布信息

港科广团队推出OpenGS-SLAM:仅凭RGB图像实现高精度定位与场景重建,突破户外SLAM技术挑战

作者:软荐小编      2025-03-27 10:01:42     165

在自主驾驶领域,Simultaneous Localization and Mapping (SLAM) 是核心技术之一。在机器人导航领域,Simultaneous Localization and Mapping (SLAM) 是核心技术之一。在AR/VR 等前沿应用领域,Simultaneous Localization and Mapping (SLAM) 是核心技术之一。

现有基于3D 高斯分布的SLAM 方法在室内场景的表现较为出色。然而,当使用仅RGB 输入来处理无界的户外场景时,它仍然面临着挑战。

港科广团队为了解决上述挑战,提出了全新的解决方案OpenGS-SLAM,它能够仅凭RGB 图像就实现高精度的定位以及逼真的场景重建。

_纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源_纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源

论文链接:

代码链接:

官方主页:

从而使相机位姿估计更加稳健,有效缓解了预训练深度网络的误差问题。

此外,将相机位姿估计与3DGS 渲染整合到一个端到端可微的管道里。这样做实现了位姿和3DGS 参数的联合优化,从而显着提升了系统的跟踪精度。

文中设计了一种自适应比例映射器,它能够更准确地进行点图到3DGS 地图表示的映射。文中还设计了一种动态学习率调整策略,此策略也能够更准确地将点图映射到3DGS 地图表示。

值得注意的是,在Waymo 数据集上进行的实验显示,OpenGS-SLAM 把追踪误差降低到了现有的3DGS 方法的9.8%。并且,研究人员在新视角合成任务方面建立了一个新的基准,此基准达到了最先进的结果。

摘要

3D Gaussian Splatting(3DGS)已成为SLAM 领域的一种解决方案且很流行,它能够生成新视角的高保真图像。

然而,现有的方法是以3DGS 为基础的。这些方法主要是针对室内场景的。并且它们依赖于RGB-D 传感器。同时也依赖于预训练的深度估计模型。所以在户外场景中的表现比较差。

研究人员为了解决这一问题,提出了一种方法,即OpenGS-SLAM,它是针对无界户外场景的纯RGB 3DGS SLAM 方法。

从技术层面来讲,此方法首先引入了一种Pointmap 回归网络。这种网络的作用是在不同的帧之间生成一致的Pointmap,以便进行位姿估计。

Pointmap 与常用的深度图不同,它能够包含跨多个视角的空间关系以及场景几何信息,进而实现更鲁棒的相机位姿估计。

首先,将估计得到的相机位姿与3DGS 渲染进行结合。接着,构建起端到端可微分优化管线。这样一来,相机位姿与3DGS 场景参数就能够同时进行优化。最终,显着提高了系统的跟踪精度。

研究人员为Pointmap 回归网络设计了一种映射器,这种映射器是自适应尺度的。它能够更精准地把Pointmap 映射到3DGS 的结构表示当中。

实验结果显示在Waymo 数据集上,OpenGS-SLAM 把跟踪误差降低到了现有3DGS 方法的9.8%,同时在新视角合成(Novel View Synthesis, NVS)任务上取得了最新的SOTA 结果。

效果展示

如下图所示,在Waymo 数据集的无界户外场景当中,该方法具备能够渲染出高保真新视角图片的能力,并且可以准确地捕捉到车辆、街道以及建筑物的细节。与之相比,MonoGS 以及GlORIE-SLAM 存在着渲染模糊以及失真的状况。

纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源_纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源_

该方法拥有明显更优的追踪性能,如下所示。并且在面临大转弯时也能稳定收敛。

纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源_纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源_

基本原理

下图是SLAM 方法的管线示意图。每一帧会输入一张RGB 图像用于追踪。当前帧和上一帧被当作图片对输入到Pointmap 回归网络中进行位姿估计。之后基于当前的3D 高斯地图进行位姿优化。

系统在关键帧处执行地图更新。系统通过自适应尺度映射器(Adaptive Scale Mapper)来处理Pointmap,目的是插入新的3D 高斯点。

相机位姿会在局部窗口内进行联合优化,3D 高斯地图也会在局部窗口内进行联合优化,这样能确保更精准的追踪与场景重建。

纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源__纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源

追踪

帧间点图回归与位姿估计

之前的SLAM 工作是以3DGS 和NeRF 为基础的,这些工作主要是在室内以及小规模的场景里进行的。在这些场景中,相机的运动幅度不是很大,并且视角比较密集。

在这种情形下,NeRF 或者3DGS 能够直接被用于对相机位姿进行优化。不过,户外的场景一般包含基于车辆的摄影,其特点是运动的幅度比较大,并且视角相对比较稀疏,这样一来,直接去优化相机位姿就很难实现收敛。

点图包含多种关系和信息,包括视角关系、2D 到3D 的对应关系以及场景几何信息。基于此,研究人员提出了一种位姿估计方法,该方法是基于帧间点图回归网络的,其目的是实现稳健且快速的当前帧相机位姿估计。

研究人员借助一个预训练的点图回归网络。这个网络结合了ViT 编码器、带有自注意力和交叉注意力层的Transformer 解码器以及一个MLP 回归头。通过这些组合,能够生成连续帧图像的点图。并且,两个图像分支之间的信息共享,对点图的正确对齐是有帮助的。

应用点图看起来可能有些反直觉。它能够在图像空间里有效表示3D 形状。它还允许在不同视角的射线之间进行三角测量。并且这种三角测量不受深度估计质量的限制。

接着,运用稳健且被广泛应用的RANSAC 和PnP 去推断两帧之间的相对姿态。用这种方式,对第k 帧的位姿进行估计,其结果为

位姿优化

研究人员为了达成精确的相机位姿追踪这一目标,基于3DGS 可微光栅化管道,构建出了一套可微的相机位姿优化方法,并且定义了光度损失为:

其中,rr 指的是每个像素的可微渲染函数,它能够通过高斯GG 和相机位姿TCW 来生成图像。而Iˉ 表示真实图像。光度损失Lpho 关于位姿TCW 的梯度为:

这些步骤利用渲染函数的微分,把增量位姿更新和光度损失紧密联系起来。这一策略让相机位姿可以依据3DGS 渲染结果进行端到端的优化,进而保证高精度且稳定的位姿跟踪。

3DGS场景表示

研究人员将3DGS 用作场景表示。他们提出了自适应尺度映射器(Adaptive Scale Mapper)。在关键帧时刻,会为地图插入新的高斯点。

利用先前获得的点图去映射3D 高斯地图。因为帧间点图存在尺度不稳定的情况,所以要基于点匹配关系来计算连续帧之间的相对尺度变化因子,这样就能确保整个场景的尺度一致性。

建图

高斯地图优化

研究人员管理一个局部关键帧窗口W 。他们通过这个窗口来选择观察相同区域的非冗余关键帧。这样做是为了给后续的建图优化提供更高效的多视角约束。

在每个关键帧上,要实现局部BA,需联合优化W 窗口中的高斯属性和相机位姿。优化过程依然是通过最小化光度损失来进行的。

为了减少高斯椭球体的过度拉伸,采用了各向同性正则化:

高斯地图优化任务可以总结为:

自适应学习率调整

在经典的室内SLAM 数据集中,相机一般是围绕着小范围的场景进行运动的,并且会形成闭环。在这种情况下,高斯优化的学习率会随着迭代次数的不断增加而逐渐地衰减。

然而,文中所研究的户外数据是由前向车辆相机捕获的。这些数据所经过的区域不会被重访。正因如此,就需要采用不同的学习率衰减策略。

研究人员提出了一种自适应学习率调整策略,此策略基于旋转角度。当车辆处于直路行驶状态时,学习率会逐步衰减;而当车辆遇到坡道或转弯情况时,学习率会被动态提升,这样就能更有效地对新场景进行优化。

首先,计算出当前关键帧与上一关键帧之间的旋转矩阵,分别记为R1 和R0,它们的相对旋转矩阵是

,接着计算旋转弧度:

然后把弧度θrad变换为度数θ,并且依据下面这些公式来对累计迭代次数进行调整:

当旋转角度达到90度时,累积迭代次数将被重置。

实验结果精度

该方法在Waymo 数据集上达成了新视角合成(NVS)的最佳表现。在追踪精度上,它与GlORIE-SLAM 处于相同水平;相较于同样基于3DGS 的SLAM 方法MonoGS,其误差降低到了9.8%,从而显着增强了系统的鲁棒性与准确性。

_纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源_纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源

消融研究

Pointmap 回归网络对系统性能至关重要。

_纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源_纯RGB输入,解决户外场景SLAM,误差降低至9.8%,港科广开源

总结

OpenGS-SLAM 是一种RGB-only SLAM 系统,它基于3DGS 表示。这种系统适用于无界的户外场景。该方法把点图回归网络和3DGS 表示相结合,从而能够确保精确的相机姿态跟踪,并且具备出色的新视图合成能力。

该方法在户外环境中比其他基于3DGS 的SLAM 系统提供了更高的跟踪精度,并且具有更高的鲁棒性,所以在实际应用中具有较高的实用性。

参考资料:

本文源自微信公众号“新智元”,由LRST 进行编辑,36 氪获得授权后予以发布。

相关内容 查看全部