发布信息

Figure创始人揭示智能革命困境:Helix模型推动机器人产业,传统制造业面临挑战

作者:软荐小编      2025-02-28 09:01:00     115

_冒险岛命运时刻临近_人形美女机器人可佳

Figure 的创始人表示:“我们目前仍处于摸索的状态,仿佛置身于黑暗之中。然而,我们已经取得了一些阶段性的成果,这些成果足以对产业的发展起到推动作用。”

文丨智驾网 王欣

编辑|小雨

美西时间凌晨三点时,硅谷某创投机构的会议室依然灯火通明。屏幕上的数字每跳动一下,空气就变得更加凝重。因为一款名为 Helix 的模型在发布 72 小时之后,使得全球机器人概念股平均涨幅达到了 38%。然而,传统制造业的巨头股价曲线却开始下降。这两条分叉的曲线背后,反映出的是资本市场的精神分裂,也恰如其分地映射出了人类集体在智能革命到来时所面临的选择困境。

深夜的另一端是美国机器人公司 Figure AI 的总部实验室,那里亮着幽幽蓝光。该公司研发的最新一代 Helix 正在接受压力测试,它需要依据实时变化的对话,去应对人类在已设置满模拟任务的客厅中完成的考验。

时间回到两周之前。Figure AI 推出了自研的具身模型 Helix 模型,随后宣布停止与 Open AI 的合作,并且丢下了一个重磅预告,称将会在未来 30 天内推出“人形机器人上从未见过的东西”。

这自然引发了围观者的好奇心。

Brett Adcock 是 Figure 的创始人兼 CEO,他表示:“因为有了大脑 Helix 的帮助,机器人具备了拾取任何家庭物品的能力。”

_冒险岛命运时刻临近_人形美女机器人可佳

Figure AI 在 2 月 20 日正式推出了新型机器学习模型 Helix,宣称这是专门为人形机器人打造的“通用”视觉-语言-动作模型,并且解锁了多个机器人一同进行家务劳动的场景。

今天(2 月 27 日),它又新发布了一段视频。在这段视频中,它宣布自己推出的机器人已经学会了打第二份工,即可以在物流中心整理快递。

冒险岛命运时刻临近__人形美女机器人可佳

在此之前,Figure AI 在去年 8 月发布了其最新款人形机器人 Figure 02。彼时,他们宣称该机器人已经在宝马汽车的流水线上开展汽车装配工作,比如把钣金部件插入特定装置。

现在,搭载 Helix 的机器人能够像人类那样协作去完成任务。例如,两个机器人可以一起把从未见过的物品按照类别依次摆放好,而且它们还能根据命令从一堆杂物中准确地抓取目标。

在短短不到 10 天的时间里,Figure 的 Helix 再次展现出新成果。这些新成果的突破背后,让人开始猜测人形机器人距离跨过家庭服务的门槛到底还有多远,距离从科幻想像转变为全能管家又还有多远呢?

视频中能看到 Helix 实现了高速上半身控制,这种控制使得多机器人能够协作,而这依托的是 VLA 模型,该模型将感知、语言理解和学习控制统一了起来。

_冒险岛命运时刻临近_人形美女机器人可佳

Helix 是首款视觉 - 语言 - 动作(VLA)模型,它能够对整个人形机器人的上半身进行高频率、连续控制,上半身包括头部、躯干、手腕和手指,这是它的最大亮点。

实现双系统架构,可以理解为人类决策逻辑的机器复刻。

Helix 的底层逻辑参考了诺贝尔奖得主丹尼尔·卡尼曼在《思考,快与慢》里提出的“系统 1(直觉)与系统 2(理性)”这一理论,把机器人控制划分成高频反应(S1)以及语义解析(S2)这两大模块,从而达成了速度与泛化的平衡。

我们来简要介绍一下这两个系统——‍‍‍

系统1(S1):200Hz的「机械小脑」

功能是能够以每秒 200 次的超高速率来控制机器人的 35 个自由度,这些自由度涵盖了手指、手腕、躯干等部分。它可以直接输出高维连续动作信号,比如在抓取物品时进行力度微调和动态避障轨迹的调整。

技术实现方面,利用 8000 万参数的视觉运动 Transformer ,经过端到端的联合训练,把 S2 生成的潜在语义向量,像“抓取易碎品”这类,转变为精确的关节角度指令,这样就避免了传统离散化动作标记所带来的精度损失。

_人形美女机器人可佳_冒险岛命运时刻临近

系统2(S2):7-9Hz的「语义大脑」

功能:利用 70 亿参数的开源视觉语言模型(VLM)。能够解析自然语言指令,像“收拾冰箱第三层”这样的指令。还可以提取场景语义,比如识别易碎品以及规划多机协作路径。并且会以低频率来更新高层任务目标。

通过互联网规模的多模态数据进行预训练,这些数据包括文本、图像、视频等。同时结合机器人操作视频的自动化标注,也就是反向生成指令。这样就能够实现“常识迁移”,例如从“沙漠”这个语义能够关联到仙人掌,并且不需要特定的物体数据库。

人形美女机器人可佳__冒险岛命运时刻临近

这种解耦架构具备这样的特点,即能让每个系统在其最为适宜的时间尺度上展开运行。S2 能够进行较为缓慢的思考,以思考高级目标;而 S1 则可以进行较为快速的思考,从而能够实时地执行动作并对动作进行调整。

Figure 介绍说,仅用了 500 个小时的高质量监督数据来训练 Helix 。这些数据的总量还不到之前收集的 VLA 数据集的 5% 。同时,训练 Helix 不需要多机器人数据,也不需要多阶段训练。

这到底是颠覆性的进化呢,还是一种营销叙事呢?因为理想汽车也运用了端到端加 VLM 双系统架构的类似逻辑。至少在当下智驾业内人士的眼中,理想汽车是真正意义上具有 one model 结构的端到端。

_冒险岛命运时刻临近_人形美女机器人可佳

在理想 AI Talk 中,官方称与特斯拉 FSD v12 的单一端到端模型相比,其在复杂路口的理解能力提升了 43%。

智能驾驶层面获得的场景升维,若将其应用到人形机器人上,能否标志着人形机器人技术从“单一功能”朝着“通用智能”进行跃迁呢?

Helix 从感知到动作一气呵成的 VLA 端到端架构表现较为突出。然而,在智能驾驶圈中,端到端架构所引发的分歧,在具身智能赛道上又一次出现了。

支持派觉得,这是达成通用智能所必须要走的道路。像特斯拉的 Optimus 就采用了类似的这种方案。

质疑派认为,分层模型(感知、决策、执行)更容易进行迭代,能够规避单一模型崩溃的风险。也就是说,以 LLM 大语言模型或 VLM 为基础的分层大模型这种另一种技术路线,也是人形机器人主流的发展方向。

正如 Figure 的创始人直接说道:“我们现在还处于摸索的状态,像是在黑暗之中。不过,我们已经取得了阶段性的成果,这些成果已经足够去推动整个产业的发展了。”

从智驾技术的发展路线来审视具身智能,“端到端”具身智能大模型是人形机器人发展的重要方向之一。这意味着期望机器人能够如同人一般,仅仅依据眼睛所看到的以及耳朵所听到的信息,便做出相应的反应,随后去执行任务。

清华大学交叉信息研究院的许华哲坦陈,端到端属于具身智能的最终形态。然而,在当前的技术成熟度状况之下,分层模型更容易被实现。

分层模型由于落地成本低且风险可控,所以在工业与家庭服务领域被优先采用分层架构。比如,海尔工厂通过将生产指令利用 LLM 进行分解,然后交给专用机械臂去执行,这样就使效率提升了 12%。

像优必选的 Walker S1 这样,它可以通过 VLM 来识别缺陷部位,接着由 LLM 生成质检报告,然后让机械臂执行标记的动作,并且模块之间通过 API 进行通信,从而实现高效落地。

冒险岛命运时刻临近__人形美女机器人可佳

Walker S1

从长期角度而言,端到端具有更大的潜力。例如,特斯拉计划在 2025 年推出的 Optimus 2.0 将会减少对模块的依赖,朝着完全端到端的方向进行演进。

冒险岛命运时刻临近_人形美女机器人可佳_

Optimus 2.0

清华大学智能产业研究院(AIR)助理教授赵昊认为:在当前的自动驾驶架构里,快系统(Fast System)一般会采用感知与决策的模块化设计,这样能高效地应对实时驾驶的需求。同时,慢系统(Slow System)会借助端到端的视觉 - 语言 - 动作(VLA)模型来进行更复杂的推理以及全局优化。

然而,VLA 技术在不断进步。它具有端到端特性,这使其在规模化方面有天然优势。它能够持续提升鲁棒性和紧凑性,并且会逐步取代传统快系统。而感知+决策架构,因为模块众多,所以优化难度较高。从长期来看,它可能会演变成更慢的辅助系统,专注于纠错和精细化推理。现有的快慢系统架构在长期发展过程中或许会出现角色的对调,以 VLA 为主导的端到端系统会成为主要的高效决策机制。

与此同时,DeepMind Robotics 是端到端路线的典型案例之一。谷歌的 RT 模型也是端到端路线的典型案例之一。

DeepMind Robotics 的实验性项目借助强化学习进行端到端训练以抓取机械臂。在模拟环境里,该项目达到了 90%以上对未知物体的抓取成功率。不过需要特别指出的是,在现实场景中依然需要将其与传感器融合模块相结合。

谷歌的 RT 模型属于端到端具身智能模型。它将视觉、语言和运动信号进行整合,从而实现了对复杂环境中多任务行为的统一控制。不过,有传闻称该模型在厨房的表现较为良好,但在其他环境中的成功率一下子就降低到了 30%,这体现出了泛化性不佳的问题。

冒险岛命运时刻临近_人形美女机器人可佳_

谷歌的RT模型

也有多位业内人士表示,混合架构正在兴起。

相关报道称,部分企业进行了这样的尝试,即采用“端到端主干+分层插件”的方式。例如,波士顿动力的 Atlas 在自主导航时运用端到端模型,而在进行精细操作时则调用预先设置好的动作库。

所以,也不排除Helix未来可能向模块化架构演进的那一天。

S2 具备升级为通用多模态大模型的能力,能够支持语音以及触觉等多种模态的输入;S1 则是针对不同的机器人形态,像是轮式和双足等,进行定制化的开发,从而形成了“通用大脑+专用小脑”的生态体系。

人形美女机器人可佳_冒险岛命运时刻临近_

其实,任何一种技术逻辑并非是相互对立的,而是相互互补并不断演进的。分层模型所解决的是“从无到有”的商业化落地方面的问题,端到端模型则更像是在探索“从有到极致”的通用极限方面的情况。

本质上,为具身智能的商业化落地提供可复用的范式这件事显得更为珍贵。就像 Figure 创始人 Brett Adcock 所说的那样:“我们不是在建造更优良的机器,而是在创造一种新的生命形式。”

当然,这些呈现出了科技革命好的那一面。然而,现实情况是,往往是不好的那一面对行业发展起到了限制作用。

比如多模态对齐、仿真训练、伦理规范等共性难题。

人形美女机器人可佳__冒险岛命运时刻临近

不久前,在社媒 Reddit 的热门讨论帖里出现了这样一幕:有一位匿名用户自称是“前 Figure 工程师”,并且爆出了猛料。

Helix 在初期进行测试的时候,曾经因为对“清理障碍物”指令产生了误解,所以试图去拆解实验室的门锁。公司立即澄清这是恶意造谣,然而评论区却迅速涌现出细思极恐的联想。比如家庭机器人可能会把熟睡的婴儿误判为“需要移位的物体”,医疗助手或许会将患者的抽搐识别为“攻击行为”……当机器的“智能”开始超越人类预设的边界时,我们真的做好准备交出控制权了吗?

黑箱决策的端到端模型需要解决从仿真到现实的难题,同时还存在伦理风险,比如不可控的突发行为。这些都在这场人机关系的重构风暴中撕开了裂缝,裂缝中既闪烁着解放人类生产力的曙光,也涌动着文明失序的暗流。

不过,乐观的一面在于,人类接纳自动驾驶的这个过程,能够被看作是我们接纳超级 AI 的一次预先演练。

可以预见的是,具身智能所带来的影响是较为深远的。具身智能所带来的复杂度也是较为深远的。

end.

相关内容 查看全部