发布信息

2025年机器人发展现状:从转手绢到阿童木,人形机器人为何进展缓慢?

作者:软荐小编      2025-04-22 21:00:52     191

2025 年已至,我们仍在为晚会上转手绢的机器人而欢呼。回想我小时候看过的那些科普读本中的预言,我觉得早该人手拥有一个阿童木了。

_机器人还有多远_机器人上学吗

后空翻和转手绢是比较基础的动作,要能够登台演小品还需要一定的时间,这之间要等多久呢?而像阿童木那样的情况就更遥远了。甚至让机器人帮忙做拖地、遛狗、叠衣服、做饭这些事情,似乎都离我们有着相当长的距离……

这里面的难点究竟是什么?为何我们确实值得为了“转手绢”这类“花活”而感到骄傲并喝彩呢?

和大模型一样,一切关乎数据

各种科幻作品进行了漫长的想象之后,现实的人形机器人在半个世纪前就已呈现出雏形。例如,日本早稻田大学于 1973 年研制出了 Wabot - 1,它具备人的双手、双脚、视觉和听觉,然而却无法完成复杂操作。在此之后,人形机器人学会了弹钢琴、跳舞,也有了面部表情,但始终未能实现从“自动化”到“智能化”这一质的飞跃。

_机器人上学吗_机器人还有多远

深度学习和 AI 大模型的到来是幸运的,“具身智能”这一概念开始在学术界和产业界得到广泛的关注。中国计算机学会定义,具身智能即 Embodied Artificial Intelligence(EAI),它是一种基于物理身体来进行感知与行动的智能系统。此系统通过智能体与环境的交互,能够获取信息、理解问题、做出决策并实现行动,进而产生智能行为和适应性。

具身智能的展现形态甚至还包含智能驾驶。

_机器人还有多远_机器人上学吗

与当前热门的 Deepseek、GPT 等产品存在差异,具身智能具备“物理实体”,它会与环境进行交互,只有理解了真实的世界,才能够做出判断和采取行动。

将 AI 聊天工具与人形机器人进行对比,当我们和 AI 对话时,AI 需处理的信息包含语言、声音、图像、视频等;而当我们与人形机器人交互时,它们需要处理的是对物体的识别、方位的辨别、运动轨迹的规划,还要判断此时应抬手还是伸腿、应伸两个手指还是伸出手掌、以何种角度使出多大力量等。

这些问题在人类看来完全无需思考,然而对于机器人而言,却都是需要从最开始就去学习的内容。

机器人上学吗_机器人还有多远_

机器人的学习过程如同 AI 一样,是从数据采集和处理开始的。然而,其比 AI 更复杂的地方在于,机器人需要获取多种维度的数据,像图像这类的感知数据,关节角度等运动数据,力反馈、扭矩等力学数据,温度、光照等环境数据,还有任务执行结果与性能数据等。

这些数据来自真实的物理世界,它们的生成和采集难度非常大。而来自互联网世界的数据生成和采集难度相对较小。所以,当前可供具身智能使用的数据集要比来自互联网世界的数据集小很多。

对冲基金 Coatue 的相关数据表明,具身机器人数据集只有 2.4M,而文本数据集有 15T 之多,二者差距较大。中国信通院联合发布的《具身智能发展报告 (2024 年)》中也提到,数据的缺乏成为具身智能能力突破的重要阻碍。一方面,真实数据存在获取成本过高的情况;另一方面,仿真合成数据存在“现实差距”,也就是模拟环境与现实世界存在差异。

这里提到了具身智能数据采集的两类主要方式,一是真实世界数据采集,二是仿真世界数据采集。

真实世界数据采集

在真实世界进行数据采集的方式有:人类动作捕捉和人类遥操作。

大家对动作捕捉较为熟悉。平时常看的虚拟主播,电影里的阿凡达、金刚,以及《黑神话·悟空》游戏里的角色等,这些都是通过真人动作捕捉来进行模拟的。

同样地,真人动作捕捉也能够用在机器人训练上。

机器人还有多远_机器人上学吗_

目前,动作捕捉有两种模式,分别是光学模式和惯性模式。光学捕捉时,需在人体动捕服上提前标记多个点位,然后利用红外相机来还原轨迹和动作;惯性捕捉则是通过惯性传感器(包括陀螺仪、加速度计、磁力计等)来测算人体的动作和姿态,进而形成数据记录。

光学动捕的优势在于其精度很高,能够对面部表情以及手指动作等这些细微且复杂的变化进行捕捉。然而,它对于场地布置以及光线照明有着较高的要求。惯性动捕虽然在精度方面受到一定限制,但是它不受场地的限制,并且还能够直接获取动力学参数,正因如此,它受到了不少人形机器人厂商的喜爱。

动捕设备捕捉到运动信号后,会把数据传送给处理设备。处理设备通过一系列算法,还原出三维空间内的位置坐标和运动轨迹。最终生成可供机器人使用或分析的数据。宇树机器人公布的信息显示,在春晚上转手绢的 H1 机器人,是通过一套新研发的动捕程序,将人类跳舞时的动作数据直接映射到机器人本体上,以此来进行训练的。

机器人上学吗__机器人还有多远

人类的动作轨迹与机器人的动作轨迹并不完全一样,依然有可能存在适配方面的问题。借助人类遥操作,能够进一步提高数据采集的准确性以及可靠性。

人类遥操作指的是人类操作员在远程位置控制机器人去执行任务,同时会记录机器人的真实数据。它与动作捕捉的区别在于,最终采集到的是真机的数据,这种方式能够弥合“具身差距(Embodiment Gap)”,即机器人与真人之间的差距。

当前,特斯拉人形机器人 Optimus 是借助人类穿戴动捕设备来遥控机器人以完成任务的,在这一过程中,对机器人的视觉识别、运动控制以及其他传感信息进行了采集。

许多厂商和服务商为了给机器人提供更好的数据采集环境,专门建设了机器人训练场。

训练场设置了多种真实场景,包括厨房、客厅、卧室、超市、奶茶店,还有户外场景。人类控制机器人在这些环境中进行操作,例如打开柜门、铺床单、冲咖啡、从货架上取物等。通过反复多次这样的操作,机器人就能学会这一动作了。

机器人还有多远_机器人上学吗_

显然,这种真机采集模式可以获取质量最高的训练数据。不过,它需要耗费大量的建设成本以及人力成本。只有那些资金雄厚、实力强大的玩家才能够做到。

国家地方共建人形机器人创新中心的数据负责人估算,“特斯拉 Optimus 要完全准备好在特斯拉工厂工作,至少需要数百万小时的数据。并且在这期间,可能需要至少 5 亿美元的数据采集成本。”

仿真世界数据采集

有一种方式能够大幅降低数据生产和采集的成本。这种方式是让机器人在类似机器人的“模拟人生”环境中进行学习和成长。通过这样的过程,机器人最终能够发展出自己的智慧。不过,就目前而言,机器人发展出自己的智慧这一点仍然只是一个奢望。

机器人仿真平台可以模拟实体机器人在虚拟环境中的行为与性能。它一方面能模拟机器人的传感器数据,另一方面能涉及对天气、地形、环境的模拟,同时还能对机器人控制算法进行测试和验证。

仿真世界部分解决了一个重要难题,就是机器人的“泛化能力”。

机器人还有多远_机器人上学吗_

比如说,以往是在真实的咖啡厅环境中训练机器人抓取指定物品的能力。如果换一间咖啡厅,换一样物品,换一个桌面材质,甚至窗外换一个天气,机器人就可能无法再完成同样的动作。这是因为它的泛化性有限,无法依据已有知识在不同场景下进行迁移。所以,就需要在另一个场景下再次进行训练,成本也就这样增加了。

仿真平台能在数字世界中,依据模拟出的物品和场景构建出变幻多样的环境,并且能满足物理正确性。机器人的行为可以被模拟,例如机器手抓取物品时的位置和姿势。在此基础上生成抓取行为的轨迹算法,然后将其迁移到物理世界,以进行实际的操作和验证。完成了一个从 Reality 到 Simulation 再到 Reality 的完整过程。

但仿真与现实的鸿沟仍然是需要解决的问题,目前已经有多种算法在努力减少这方面的影响。

要说数据量最大的来源,那是海量的互联网数据;要说成本最低的来源,同样是海量的互联网数据。

理论上而言,视频网站上分享出来的人类行为视频,能够成为机器人学习的“资料库”。然而,这部分数据存在“噪声”大以及随机性强的问题,它既不是机器人训练的特定场景,数据也未经过结构化处理和标注,所以很难直接用于训练机器人。

机器人上学吗_机器人还有多远_

有研究机构仍在进行这方面的努力,他们认为能够借助互联网上大量的人类操作视频来进行“预训练”,接着用少量的机器人数据进行“微调”,原因是互联网的数据量非常大。

未来,互联网数据有可能与仿真数据、真机数据融合使用,从而为具身智能提供数据的“宝库”。同时,数据采集的方式也将取得突破,有人认为,“脑机接口”会成为未来重要的机器人数据来源,即人类可通过大脑信号直接控制机器人进行操作。

总之,AI 大模型与具身智能机器人存在差异。从 AI 大模型到具身智能机器人,就如同从玩贪吃蛇转变到畅游魔兽世界。“智能体”拥有了物理实体,这使得它需要学习的东西增多了,同时可探索的空间也变得更大了。

在接下来的这一系列的下一篇内容里,我们接着来讲一些确实发生过的、充满趣味的机器人训练事例。

机器人还有多远_机器人上学吗_

相关内容 查看全部