谷歌新型AI模型能控制机器人折纸(来源:网易科技报道)
3 月13 日有消息称,在周三的美国时间,Google 旗下的DeepMind 实验室宣布推出了两款全新的人工智能模型,这两款模型是用于控制机器人的,它们分别是Gemini Robotics 与Gemini Robotics - ER。公司称,这些模型可给多种形态的机器人赋予精细运动技能,还能赋予其环境适应能力,能显着提高机器人在物理世界中的交互效率,进而推动人形机器人助手等应用落地。
值得注意的是,用于机器人平台的硬件在稳步发展,不过并非总是如此。如何确保人工智能系统能够安全精准地控制机器人,以应对未知场景,始终是行业的难题。业内所说的“具身智能”,它不只是英伟达等科技巨头的“登月计划”,更是开启通用机器人劳工时代的关键钥匙。
谷歌开发的新模型以Gemini 2.0 大语言模型为基础,专门为机器人应用增添了相关功能。其中,Gemini Robotics 融合了谷歌所称的“视觉- 语言- 行动”(Vision - Language - Action, VLA)能力,能够处理视觉信息,理解语言指令,并且生成物理动作指令。 Gemini Robotics-ER 侧重于“具身推理”,能够提升空间认知能力,并且可以无缝接入现有的机器人控制系统。
比如,Gemini Robotics 能够命令机器人去“将香蕉放进篮子”,它会借助摄像头来获取场景图像,从而识别出香蕉,接着控制机械臂顺利完成这个动作;同时,它也可以命令机器人“折纸狐狸”,此时系统会运用关于如何精细折叠纸张的知识来完成该任务。
2023 年,谷歌研发的RT-2 模型在向通用机器人能力迈进的征程中迈出关键一步。它借助互联网数据,使得机器人能够理解语言指令并适应新场景,在未知任务中的表现相较于前代模型提升了一倍。两年之后,Gemini Robotics 似乎取得了重大的进步,它不但在理解指令方面成绩斐然,还能够执行RT-2 无法处理的复杂物理操作。
RT-2 仅能重现经过训练的物理动作,然而Gemini Robotics 具备极大的灵活性,实现了质的提升,能够完成折纸、零食封装等难度较高的任务。从仅仅具备理解指令能力的机器人,到能够执行精细物理任务的机器人,这一转变意味着DeepMind 正在逐步攻克机器人领域的最大挑战,即如何让机器人将人工智能认知转化为现实世界中的精准动作。
泛化能力大幅提升
DeepMind 表明,新推出的Gemini Robotics 系统具备更强的泛化性,也就是具备执行未曾专门训练的新任务的能力,并且其表现要远远超过之前的AI 模型。公司宣称,Gemini Robotics 在全面泛化基准测试中的表现是“比同类最优模型的性能提升两倍还多”。这种泛化能力非常重要。它意味着机器人未来不用针对每个场景专门去训练,就能够适应新的情境。并且,机器人还能在不可预测的真实世界环境中运行。
这点很重要,因为当下人们对人形机器人的实用性与能力存有疑虑。去年10 月,特斯拉大张旗鼓地演示了Optimus Gen 3 人形机器人,声称能完成诸多物理任务。然而,有几台机器人被证实是由人工远程操控的,这就让人们对特斯拉自主人工智能的实际能力产生了担忧。
谷歌努力打造真正的“通用型机器大脑”。于是,谷歌宣布与总部在得克萨斯州奥斯汀的Apptronik 展开合作,要基于Gemini 2.0 来构建下一代人形机器人。这一模型主要是在双机械臂平台ALOHA 2 上展开训练的。谷歌宣称,Gemini Robotics 能够被用来控制各式各样的机器人,其中包含Franka 机械臂,还有像Apptronik Apollo 这样的人形机器人等更为复杂的系统。
人形机器人这一应用对于谷歌基于大语言模型的生成式人工智能而言较为新颖。值得玩味的是,谷歌在2013 至2014 年间曾收购过几家机器人公司。其中有打造出知名人形机器人的波士顿动力(现属于现代集团)。不过后来这些公司又被悉数出售。此次开展的新合作是与Apptronik 进行的。这看起来像是谷歌在人形机器人领域的新尝试。它并非是此前战略的延续。
其他公司正在积极研发人形机器人硬件。例如,Figure AI 在2024 年3 月为自家的人形机器人筹得大量资金。前Alphabet 子公司波士顿动力在去年4 月推出了一款灵活的新型Atlas 机器人。然而,到目前为止,业界还没有出现真正能够让机器人实现实用化的人工智能控制系统。谷歌宣布,通过“可信测试者”计划,向波士顿动力等公司有限开放Gemini Robotics-ER 的使用权限。其中包括波士顿动力、Agility Robotics 和Enchanted Tools 等公司。
安全性与局限性
谷歌在安全性方面提及采用“多层次、整体性的策略”,并且保留了防碰撞和力度限制等机器人传统安全机制。公司受到阿西莫夫“机器人三定律”的启发,推出了“机器人宪法”框架。在此基础上,公司发布了ASIMOV 安全数据集,以帮助研究人员评估机器人行为的安全性影响。
谷歌希望通过标准化方法来评估机器人安全性,全新的ASIMOV 数据集表明这一点,且不仅仅局限于防止物理伤害。这一数据集的目的是帮助研究人员测试人工智能模型对机器人在不同场景中行为后果的认知能力。根据谷歌公告,ASIMOV 数据集会“帮助研究人员在真实世界场景中严谨衡量机器人行动的安全性影响。”
谷歌没有宣布新模型的可用时间安排以及商业应用方面的具体规划,当下这些模型依然处在研究阶段。谷歌所发布的演示视频展现出了人工智能令人惊叹的进步,然而在控制环境下进行的实验依旧很难完全体现这些系统在现实世界里的真实表现。