发布信息

AIxiv专栏:探索上海AI Lab具身智能中心在机器人控制领域的最新突破

作者:软荐小编      2025-02-26 14:01:49     89

AIxiv 专栏是机器之心用来发布学术和技术内容的栏目。在过去的数年时间里,机器之心的 AIxiv 专栏接收并报道了超过 2000 篇的内容。这些内容覆盖了全球各大高校以及企业的顶级实验室。通过这样的方式,有效地促进了学术的交流与传播。如果您有优秀的工作想要进行分享,欢迎向我们投稿或者联系我们进行报道。投稿邮箱分别为:liyazhou@jiqizhixin.com ;zhaoyunfeng@jiqizhixin.com

近日,上海 AI Lab 具身智能中心的研究团队在机器人控制领域获得了新的突破。他们提出的 HoST(Humanoid Standing-up Control)算法,成功地让人形机器人在多种复杂环境里实现了自主站起,并且还展现出了很强的抗干扰能力。

这一创新解决了机器人从坐姿到站姿转换的难题,同时为未来人形机器人在家庭、医疗、救援等场景中的广泛应用奠定了基础。

HoST 算法通过强化学习框架以及多项技术的优化,在仿真环境中表现出色,在真实环境中也表现出色。它为人形机器人应对实际环境中的失衡恢复等挑战提供了创新解决方案,同时也为应对动态平衡等挑战提供了创新解决方案,进一步推动了具身智能技术的实用化进程。

站起身是什么意思__站起来的动作

起猛了,人形机器人竟在上海黄浦江畔平地坐起看日出?

站起来的动作_站起身是什么意思_

也能像牛顿一样坐在「苹果树」旁,起身看看天上掉下了啥。

_站起来的动作_站起身是什么意思

在负重、强干扰情况下,也能自如起身。

_站起身是什么意思_站起来的动作

_站起身是什么意思_站起来的动作

设想人形机器人能否做到以下这些:从沙发上起身;走向桌子;拿起一杯咖啡。尽管最近的工作让它们具备了强大的运动和操作能力,然而在从沙发上站起这个环节上,相对来说却缺乏相关研究。

大多数工作假设机器人是从一个已经预先定义好的站立姿势开始的,然后去执行后续的任务。研究者认为,学会人形机器人的站起控制这种能力,既可以应对上述从坐立姿态转换到站立姿态的场景,也能够应对跌倒后重新站起的场景,这样有助于进一步提升人形机器人在实际场景中的应用。

此前的控制算法要么依赖预定义轨迹,要么忽视真机硬件限制。而 HoST 的研究团队提出了一套新的强化学习框架,它是从零开始的,不依赖预定轨迹。这套框架能够在仿真环境中学会从多种姿势下成功站起,并且还能直接部署到真实机器人上。

站起来的动作__站起身是什么意思

核心技术

站起来的动作__站起身是什么意思

HoST 算法框架

奖励函数设计与策略优化

站起这一控制任务与行走和操作不同,它的动态性更强,对上下半身的动态性要求也更高。特别的是,对于强化学习算法来说,需要克服接触点随时间变化、多阶段技能学习以及精确的身体角动量控制等问题,这无疑给奖励函数的设计与策略优化带来了极大的困难。

研究者们为此设计了多种奖励函数,然后将这些奖励函数归类为四种奖励组。这四种奖励组分别是任务奖励、风格奖励、约束奖励与后任务奖励。

研究者们紧接着采用多评论家技术,其目的是能更好地平衡各个奖励函数。他们对每一个奖励函数组分别进行汇报估计,并且给每个奖励函数组赋予不同权重,以此来最终优化控制策略。

_站起来的动作_站起身是什么意思

探索策略

研究者们即使有了合理的奖励函数设计,依旧观测到了强化学习在探索方面遇到的困难。

科学家对婴儿进行研究,研究团队从这当中发现,外界的帮助能够对婴儿学习许多动作技能起到帮助作用。基于此启发,研究者们设计出了基于课程的辅助力探索策略。

在训练的初期,机器人借助额外的向上的辅助力,这样能让它更轻易地站起,进而探索到高质量的学习样本。随着机器人渐渐掌握了站起的能力,这一辅助力会逐渐地减小直到为零,从而使机器人最终学会在没有辅助力帮助的情况下进行站起控制。这种设计大大加快了学习的效率。

运动约束

研究者们观测到机器人容易学到剧烈的站起策略。为克服这一问题,他们引入了动作缩放系数(动作界限)。此缩放系数能决定 PD 控制器中目标关节角与当前关节角的最大偏差。进而隐式地约束关节的最大力矩与速度。该缩放系数初始被设定为 1。随着学习的推进,该缩放系数逐渐减弱到 0.25。

站起身是什么意思_站起来的动作_

研究者们观测到了站起过程中的行为抖动。他们为了避免这个问题,在值函数网络优化时采用了平滑约束方法(L2C2),同时在策略网络优化时也采用了该方法。

真机策略迁移

研究者们在仿真训练中设计了四种地形,分别是平地、平台、斜坡和靠墙,目的是模拟真实世界中可能见到的初始姿势,因为真实世界中常见到这样的环境。

另外,研究者们为了减小物理仿真与现实中物理参数的差异,还运用了域随机化的技术。在仿真过程中,他们给某些物理参数添加了一些随机噪声,比如质心的偏移以及 base 重力等。

实验评估

仿真环境站起动作质量

研究人员为了更好地评估站起动作,首先提出了四个量化指标,分别是成功率、双脚移动距离、动作平滑度和消耗能量。基于这些指标,他们首先在仿真中对 HoST 及其消融版本进行了比较。从如下表中可以看出,多评论家、辅助力探索、运动约束都对策略学习有着显著的影响。

机器人在没有前两者的情形下,难以在多数地形上顺利学到站起技能;而缺少运动约束会导致站起动作不够平稳。这些都验证了上述技术设计的重要性。

_站起来的动作_站起身是什么意思

真实环境站起动作质量

研究者们首先将控制策略部署到机器人 Unitree G1 上,然后在室内外的多种场景进行了测试。从图中可以看出,在多种地形上都成功实现了站起,这些地形包括木质平台、草地、平台、斜坡、靠树以及石子路等。

站起身是什么意思_站起来的动作_

在室内场景中,研究者对比了平滑约束对真机表现的影响。从图中可以看出,平滑约束使站起动作的平滑度得到显著提升,同时也提高了站起动作的成功率。

_站起身是什么意思_站起来的动作

鲁棒性测试

HoST 在面临负重的情况时,能够保持稳定站立;在遭遇外部冲击力时,也能保持稳定站立;在遇到软质地面障碍物时,依然可以保持稳定站立;在随机扭矩丢失等复杂外部干扰条件下,还能够从摔倒中迅速恢复,并维持动态平衡。

站起来的动作_站起身是什么意思_

站起来的动作__站起身是什么意思

相关内容 查看全部