最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果。蚂蚁数科与清华大学联合团队提出了一个全新的具身协同框架,名为 BodyGen。这个框架成功入选了 Spotlight(聚光灯 / 特别关注)论文。
本文研究并探索了一个有意思且令人深思的问题,那就是机器人是否能够像生物那样自主进化。团队通过实验得出了肯定的答复:将强化学习与深度神经网络技术相结合,BodyGen 能够在极为短暂的时间内自动演生出适合当前环境的最优机器人形态以及控制策略,这为具身智能的加速进化提供了全新的思路。
目前这一框架的代码已开源至 GitHub 仓库:。
据悉,本届大会收到的论文数量为 11672 篇。其中,被选中做 Spotlight(聚光灯 / 特别关注)或者 Oral Presentation(口头报告)的论文所占比例约为 5.1%。
以下是论文作者团队对该论文的解读:
为什么机器人需要“自主进化”?
自然界生物历经数百万年的进化,具备了适应环境的绝佳身体结构以及与环境交互的能力。然而,机器人的设计不仅需要极为丰富的人类专家知识,而且针对特定环境还需要开展大量的实验、进行设计以及进行迭代。
科学家受自然界生物学的启发,提出了形态控制协同设计(Co-Design)技术。这项技术让机器人能够模仿生物的进化过程,在对控制策略(大脑)进行优化的同时,自身的形态(包括形体结构和关节参数等)也会不断演化,以便适应复杂的环境。
然而,这一领域长期存在两大难题。其一,形体搜索空间极为巨大,在有限的时间内很难将所有可能的机器人形态都进行穷举。其二,机器人形态与控制策略之间存在深度耦合的关系,对每一个候选形态设计进行评估都需要大量的计算资源。
BodyGen 的核心思路
清华大学的研究团队和蚂蚁数科的研究团队提出了 BodyGen 框架,他们利用强化学习,达成了端到端的、高效的形态 - 控制协同设计。
在这项工作里,形体设计过程被划分成了两个连续的阶段。一个阶段是形态设计阶段,另一个阶段是环境交互阶段。
在演化阶段:研究引入了 Transformer(GPT-Style),通过自回归的方式来构建机器人的形体结构并且优化参数;在环境交互阶段,也是使用 Transformer(Bert-Style),对机器人的每一个关节信息进行集中处理,然后将其发送到对应关节的马达,与环境进行交互并获取反馈。经过几轮的迭代,BodyGen 能够迅速生成当下环境里的最佳机器人形态,同时也能生成与之相应的控制策略。
BodyGen 的三大技术点解读
BodyGen 是一个训练框架,具有生物启发式特点。它利用深度强化学习来实现端到端的形态与控制的协同设计。
BodyGen 包含三项核心技术点:
(1)轻量级的形体结构位置编码器 TopoPE;
TopoPE 如同机器人的“身体感知”系统,它会给机器人的每个部位贴上“智能标签”。不管机器人的形状怎样发生改变,这些标签都能够协助 AI 明白“这是腿”以及“这是手臂”等。如此一来,即便机器人的形态有了变化,AI 也能够迅速适应并对新的身体结构进行控制。
基于 Transformer 的是 MoSAT 这种神经中枢处理网络,它是集中式的;
MoSAT 如同机器人的“大脑中枢”,它的工作方式与人脑较为相似。
(3)时序信用分配机制下的协同设计。
设计一个好的机器人形态,往往需要经过很长时间才能知晓其效果如何。例如设计了长腿,只有等机器人学会走路后,才能确定这一设计是否合理。而 BodyGen 通过特殊的“奖励分配机制”,使得 AI 能够对自己的设计决策进行合理评估,不会因为短期内效果不明显就轻易放弃那些可能非常好的设计。
第一:TopoPE 形体结构位置编码器
在人脑中,身体不同区域的信号会被传输至特定的神经区域以进行处理,此过程隐含了消息来源的位置信息。对于机器人而言,我们同样需要具备高效的形体信息表征。
在 BodyGen 里,拓扑感知位置编码(TopoPE)借助哈希映射,把机器人肢体到根肢体的路径映射成唯一的嵌入。这样就有效解决了形体演化过程中的索引偏移问题,进而促进了协同设计过程中相似形态机器人的知识对齐与共享。
第二:MoSAT 集中式的神经中枢网络
作者为了通用表征形体空间里各式各样的机器人,采用标准序列模型 Transformer 来处理拓扑结构可变化的机器人形体。机器人的各个关节信息要依次经过“编码”这个阶段,接着进行“集中处理”,然后再经过“解码”,最终能够生成动作信号。
第三:时序信用分配机制下的协同设计
在 BodyGen 的定义里,智能体具备两种基本动作。其一为形态设计动作,其二为形体控制动作。而形态设计动作又包含三类基本元动作。
形体控制动作包含了机器人与环境交互时每一个关节马达的输出力矩。
本研究通过近端策略优化算法(PPO)来开展端到端的协同设计训练优化工作。形体控制动作能够获得及时的环境反馈,然而形态设计动作却无法做到这一点。作者提出了改进的广义优势估计(GAE),对环境奖励进行层次化的动态分配,这样就能让智能体在形态设计和控制阶段都能获得平衡的优势估计,进而提升训练性能。
BodyGen 的测评效果表现为,其参数低至 1.43M,同时还实现了 60%的性能提升。
研究者选取了 3 种基础的机器人拓扑结构,分别是线性、双腿和四腿。在不同的仿真环境里,这里的环境奖励信号仅仅是运动敏捷性,也就是指定方向的运动速度。给定初始的结构设计后,借助 BodyGen 来进行形态与控制的协同优化。
作者在 10 种不同类型的环境中进行了综合测评。实验表明,BodyGen 比最先进的基线提升了 60.03%的平均性能。在爬行、地形穿越、游泳等 10 个不同任务种类的环境下,BodyGen 生成的机器人形态在环境适应性评分方面比现有最优方法(如 Transform2Act、NGE 等)获得了 60.03%的增长。
研究对序列模型和时序信用分配算法进行了对比消融,并且对文章提出的 MoSAT 架构以及时序信用分配算法进行了实验验证,这些验证是详细且充分的。
作者对形体结构位置编码进行了消融实验。通过这个实验,证实了 TopoPE 在形态表征方面是有效的。
BodyGen 的参数量平均为 1.43M。它比其他基线算法更具轻量级特点。BodyGen 的设计很紧凑,在保持生成能力的同时,能显著降低计算成本和存储需求,还提升了训练的稳定性与效率。这种模型架构很高效,它减少了训练时的资源消耗,同时提升了推理阶段的响应速度,所以更适合资源受限的环境,甚至能在一台笔记本上借助 CPU 进行高效推理。
相关代码已开源至 GitHub 仓库:,欢迎尝试。
场景应用
BodyGen 是一个通用形体控制协同设计算法,它展现出了一定的应用潜力,这些潜力包括:可以用于某种设计;能够在某种场景中发挥作用;具备某种特定的应用可能性等。
未来展望
团队计划借助物理模拟迁移技术来推动 BodyGen 在实际场景里的应用。随着计算能力不断提升,这一框架有希望成为达成通用具身智能的重要途径,让机器人能够凭借感知 - 行动闭环持续对形态与行为策略进行优化,逐步达成自我设计以及自动进化。
作者简介
昊飞,清华大学人机交互实验室在读硕士
吴哲,清华大学人机交互实验室博士研究生
合作者
李建树,蚂蚁数科高级算法专家以及团队其他成员
通讯作者
兴军亮,这位研究员一直致力于感知与博弈决策方面的理论与应用研究。他在多智能体系统领域取得了重要成果,同时在强化学习以及智能决策等领域也取得了一系列成果。
本文源自微信公众号“AI 前线”,作者为卢昊飞、吴哲、李建树等人,36 氪获得授权后进行了发布。