发布信息

2025年人形机器人量产元年?特斯拉等多家厂商公布计划,可信度几何?

作者:软荐小编      2025-04-21 21:01:24     157

你或许在近几个月中多次看到这样的消息:2025 年将会成为人形机器人开始大量生产的元年。 你可能在近几个月里不止一回看到此类消息:2025 年将成为人形机器人大规模量产的起始之年。 你也许在近几个月内不止一次见到这样的消息:2025 年将成为人形机器人批量生产的元年。

这……能信么?

_机器人上学篇(下):他们都说我今年要行了……我,行么……_机器人上学篇(下):他们都说我今年要行了……我,行么……

最近,的确有多家机器人厂商公布了 2025 年的量产计划:

特斯拉打算生产 1 万台 Optimus;Figure AI 预估在接下来的 4 年里将会实现量产 10 万台;1X 预计能够量产数千台 NEO 机器人;国内的智元、宇树以及优必选也都宣称正在积极地推进量产工作。

既然前两篇提到的那些难题如此密集,那么这样的 25 年新年计划是不是过于乐观呢?可别像我每年的新年决心那样啊……

机器人上学篇(下):他们都说我今年要行了……我,行么……_机器人上学篇(下):他们都说我今年要行了……我,行么……_

要么烧钱、要么烧脑

前文提及机器人数据采集有两种常见方式,一种是在真实世界中进行训练并收集相关数据,另一种是在仿真世界中进行训练并收集相关数据。

_机器人上学篇(下):他们都说我今年要行了……我,行么……_机器人上学篇(下):他们都说我今年要行了……我,行么……

其中,真机训练一直是一条道路,这条道路是“艰难且正确的”,并且需要有一定的“能力”,这种能力不小。从现在的情况来看,很有可能还是需要通过“大力去做从而创造奇迹”,就像国家和地方政府亲自参与并给予支持一样。

当前,国家工信部与当地政府联合在建设具身智能数据采集场,北京在进行这一建设,上海也在进行这一建设。同时,国家工信部与当地政府牵头制定了一系列数据标准,北京在制定,上海也在制定。2025 年 4 月,北京将举办世界人形机器人运动会,并且还将举办半程马拉松比赛。

深圳市政府行动迅速。3 月 3 日,深圳针对人工智能发展行动计划发布了三个文件。其中有两个文件重点提及了“具身智能”,包含构建跨本体多样性开源数据集,在宝安、龙华等区建设具身智能数据采集基地,开发真机数据采集平台和数据仿真平台等与数据采集直接相关的内容。

广东省的做法看上去更加“简单粗暴”——打钱!广东省政府 3 月 10 号发布文件称,国家级重点项目能拿到 1 亿元支持;创建人工智能和机器人制造业创新中心的话,最高可获得 5000 万元支持;对于机器人开源项目会给予最高 800 万元资助;企业或科研院所主导制定机器人行业标准时,最高可给予 50 万元资助……

当然,与砸钱去建设真机训练场相比较而言,在仿真环境中进行训练的性价比是要高很多的。各大科技公司都在非常努力地思考,在探索怎样给机器人搭建一个更为完美的“赛博世界”,这个“赛博世界”也就是由 AI 生成的世界模型。

赛亚人有自己的精神时光屋,机器人也有。在某些场景和针对特定数据时,在仿真平台训练一天,其效果相当于真实世界里的 180 天。上海人工智能实验室的科学家指出,算上人力和机器成本,获取一条真机数据大概需要十几元,而获取一条仿真数据仅需两分钱。

_机器人上学篇(下):他们都说我今年要行了……我,行么……_机器人上学篇(下):他们都说我今年要行了……我,行么……

目前,世界模型领域中最为知名的明星是英伟达的 Cosmos。英伟达自身透露,人形机器人制造商 1X 已使用该平台,Agility Robotics 也已使用该平台,Figure AI 同样已使用该平台,并且小鹏汽车也将借助它来加快人形机器人的开发进程。

Uber 在人形机器人之外的领域正应用 Cosmos 来研究自动驾驶。埃森哲和凯傲软件借助 Cosmos 实现了仓库物理信息的数字化,目的是训练仓储机器人。

谷歌 DeepMind 团队在进行“世界模型”方面的投入。2024 年 12 月,DeepMind 发布了 3D 世界模型 Genie2,此模型能够模拟重力等物理世界的效果,还能生成长达 1 分钟的“一致”世界。Genie2 正在和现有的具身智能项目相融合,它为这些项目提供了仿真训练的环境。这种结合有望在谷歌自研的机械臂 ALOHA 上得到应用,也有望在自动驾驶 Waymo 上得到应用,还有望在谷歌投资的人形机器人 Apptronik 上得到应用。

一些公司和团队在致力于多模态世界模型,像李飞飞所带领的 World Labs,还有字节跳动、昆仑万维等中国公司。这些模型能够依据简单的文本或图片描述生成一段 360°可交互视频,然而目前它们主要是在游戏、动画等领域得到应用,尚未见到公布的具身智能应用案例。

好消息!机器人泛化难题有望解决

具身智能最大的想象空间在于,AI 到底能够在何种程度上赋予机器人行为以能力。

机器人上学篇(下):他们都说我今年要行了……我,行么……_机器人上学篇(下):他们都说我今年要行了……我,行么……_

限制人形机器人大规模应用的一个门槛是泛化能力普遍不足。机器人学习一个复杂动作需几千乃至上万条数据来支撑。一旦操作环境发生变化,比如需要抓取的物体形状或材质改变了,机器人或许就得“从头学起”。

AI 的发展带来了转机,机器人有希望凭借较小的数据集达成对物理操作的广泛理解。 机器人有望借助较小的数据集来实现对物理操作的普遍理解。 借助较小的数据集,机器人有望对物理操作进行泛化理解。 机器人有望通过较小的数据集而实现对物理操作的泛化理解。 较小的数据集有望让机器人实现对物理操作的泛化理解。 机器人有希望通过较小的数据集来实现对物理操作的泛化性理解。 较小的数据集使机器人有望实现对物理操作的泛化理解。 借助较小的数据集,有望让机器人对物理操作进行泛化理解。 机器人有望通过较小的数据集实现对物理操作的泛化性把握。 较小的数据集有望让机器人达成对物理操作的泛化理解。

2 月 20 日,Figure AI 发布了动作模型 Helix,此模型用于通用人形机器人。借助该模型,机器人能够依据自然语言提示拿起几乎各种小型家居物品,这些物品还包括它未曾见过的。

Helix 有能力将丰富的语义知识直接对应到机器人的动作。例如,当听到“捡起沙漠物品”的指令时,机器人能够识别出桌上的玩具仙人掌,并且能够完成“抓取”的精确动作。这种转换能力的提升与 Helix 同时结合了两种系统有关,即快思考(System1)和慢思考(System2)。简单来说,机器人能够运用慢思考去完成推理这一行为,并且能生成准确的判断;同时,机器人还可以用快思考来即刻执行相关动作,以及对动作进行调整。

机器人上学篇(下):他们都说我今年要行了……我,行么……__机器人上学篇(下):他们都说我今年要行了……我,行么……

Helix 的创新优势体现在它仅用 500 小时高质量监督数据来训练。此数据量比之前的 VLA(视觉 - 语言 - 动作)模型少,不到其 5%。同时,它无需针对特定任务进行微调。并且,它是首个能同时在两个机器人上运行的动作模型,从而实现了机器人之间的无缝合作。

当前,Figure 机器人配备了 Helix 。它能够在各种容器中进行物品的拾取和放置。它能够操作抽屉以及冰箱。它能够与另一个机器人对接。它还能够操控数千种全新的物体。

3 月 10 日,智元机器人发布了 GO - 1 具身基座大模型。GO - 1 提出了创新的 ViLLA(Vision - Language - Latent - Action)架构,此架构基于 VLA 模型。智元机器人解释称,该架构的底层逻辑为“数字金字塔”的概念。中国厂商的机器人产品也能达到类似效果。以学习打乒乓球为例,其一,在互联网海量数据里,从理论层面去了解上旋球、下旋球究竟是何种情况;其二,有针对性地观看世界冠军的视频,以此学习动作模式;其三,借助发球机(或许 Switch 上的乒乓球互动游戏也能起到作用)来进行模拟练习;其四,由教练进行手把手的示教——按照这样的逻辑,机器人便能够学会人类的行为。

机器人上学篇(下):他们都说我今年要行了……我,行么……_机器人上学篇(下):他们都说我今年要行了……我,行么……_

GO-1 最大的价值在于让机器人能够通过小样本甚至零样本实现泛化,其训练数据集能够比以往降低 1 到 2 个数量级。同时,GO-1 能够将互联网数据与真实的人类示教数据相结合,提升了模型的感知、理解和操作能力,并且还可以适应不同的机器人形态,达成“一脑多形”的跨本体应用。

在同一时间,Google DeepMind 发布了两款机器人模型,分别是 Gemini Robotics 和 Gemini Robotics-ER。

前者是“高级 VLA”模型,增强了机器人的泛化理解能力,例如能让没见过篮球的机械臂知晓“扣篮”是什么以及如何完成;后者的 ER 表示“具身推理(embodied reasoning)”,它试图模仿人类的一种行为,即基于对物理世界的直觉理解来猜测与新物品的互动方式,不过是以机器人的行为模式来进行的。人看到一杯热咖啡时,可能会下意识地去抓握手柄。然而,对于机器人而言,全面握住杯子才是可靠性更高的反应。

如果没有自研的推理模型,那该怎么办呢?还可以尝试接入开源的 DeepSeek-R1。

机器人上学篇(下):他们都说我今年要行了……我,行么……_机器人上学篇(下):他们都说我今年要行了……我,行么……_

优必选机器人在 2 月宣布接入该模型。初步测试结果表明,机器人的“零样本推理能力”得到了提升。然而,在实际落地应用之前,需要让机器人经过足够的真实场景来进行训练调优。

马斯克认为,到 2040 年全球人形机器人的数量将会达到 100 亿台。然而,截至 2024 年末,人形机器人的销量或许才刚刚达到万台的级别。在这两者之间存在着如同“天堑”一般的差距,而这个差距还有待各家厂商去突破。

也许,真的就是从今年开始。

到 2040 年我们拭目以待。要好好吃饭,要好好睡觉,要好好运动,以此保持健康,可别到那时让机器人嘲笑我们呀。

机器人上学篇(下):他们都说我今年要行了……我,行么……_机器人上学篇(下):他们都说我今年要行了……我,行么……_

相关内容 查看全部