它在1月23日收录了新闻,如何使用机器中的视觉语言模型(VLM)⼈将其视为智能领域的木偶操作。受到两个关键挑战的约束:
VLM缺乏准确的3D理解能力:通过学习范式训练,仅2D图像/⽂⽂是失去VLM的自然限制;
次低 - 水平运动:机器上的早晨VLM⼈⼈⾏⾏⾏⾏⾏⽆⽆⽆⽆⽆⽆⽆⽆⽆(VLA)模型是对该物种的有前途的解决方案,但是数据收集成本和广泛性能量是在限制之前仍然可以使用。
上海Zhiyuan Xinchuang Technology Co.,Ltd。今天正式发布,Beibei带着Zhiyuan Machine⼈团队提出了Omnimanip Architecture。基于与对象作为中间的3D交互元素,VLM的高级别推理能力被转换为机器⼈。低级别和高度精确措施。
为了响应模型和真实环境的幻觉的不确定性,Omnimanip带领了VLM Planning和Machine⼈的双公开系统设计,并实现了突破性的操作性能。目前,武和理论的主要和理论已经启动,代码和测试平台即将成为开源。
它的房子从官方的Zhiyuan机器人那里学到,Omnimanip的主要设计包括:
基于VLM的任务分析:Liye VLM强的常识推理能力,将任务分解为多个结构化阶段(阶段),每个阶段清楚地指定了主要人工体(主动),被动类型和动作类型(行动)。
将中氧蛋白的相互作用基础作为空间约束:通过3D基本模型与任务相关的对象的3D模型和标准空间(规范空间),因此VLM可以直接在空间中直接在空间中采样3D交互元素,作为操作的空间约束,从求优化求解在标准坐标系统下的活动对象的标签系统的交互性手势。
封闭的 - 环VLM计划:将⽬⽬相互作用态度中的主动 /被动对象渲染到图像中,该图像通过VLM进行了评估和采样,并在身体计划结果中对VLM进行了闭环调整。
封闭的-Loop Machine⾏⾏物物物⾏⾏⾏⾏物物⾏⾏⾏物物⾏物⾏⾏⾏⾏⾏:活动 /被动物体的位置通过对象6D态度跟踪器实时更新,并将其实时更新机械臂结束经销商的操作轨迹和封闭环的痴迷。
此外,综合具有对概括的概括,并且不受特定方案和对象的限制。该团队已将其标记为数字资产中的IT/合成管道,以实现缩放机轨迹。研究团队将开源广义操作⼤数据集和相应的仿真评估基准。
据IT House报道,以“天才男孩”的身份加入华为的Jiyi Huijun宣布在2022年底离开,开始了Zhiyuan Robot的业务。 2024年9月3日,Zhiyuan机器人完成了A ++++++回合的融资,估值超过70亿元,获得了包括BAIC,SAIC和BYD在内的家用汽车巨头的支持。
目前,由Zhiyuan机器人生产的1,000个全球机器人本月(1月6日)正式推出,其中包括731个两脚的人形机器人机器人(Expedition A2 / Ling Rin X1)和269 Universal Universal Universal Universal Applipations Robot(Expedition A2--探险A2-- D / A2 W)。