近年来,人工智能在视觉和自然语言处理方面取得了惊人的泛化能力,但在机器人操作领域,端到端方法往往需要大量昂贵的本域数据,且难以在不同硬件平台与开放场景下推广。为此,HAMSTER(Hierarchical Action Models with Separated Path Representations)通过层次化架构,在高层利用域外数据微调的大模型(VLM)生成二维路径,中间表示解耦了任务规划与具体执行,让低层控制模块专注于实际动作控制。实验表明,HAMSTER 在多种操作任务中都体现出更高的任务成功率与更好的跨平台泛化性能,并显著降低了对昂贵机器人演示数据的依赖。
- 论文标题:HAMSTER: Hierarchical Action Models for Open-World Robot Manipulation
- 论文主页:https://hamster-robot.github.io/
- 论文链接:https://arxiv.org/abs/2502.05485
- Demo: http://hamster.a.pinggy.link
视频链接:https://mp.weixin.qq.com/s/yaMbDgEfmJ990cqcKofiVw
HAMSTER 这一研究成果获得了业界专家的高度评价。谷歌 DeepMind 高级研究科学家 Ted Xiao 在社交媒体上表示:「在构建机器人基础模型时,超越简单的自然语言具有巨大的潜力。轨迹是一种很好的实现方式,而HAMSTER已经将轨迹条件策略扩展到了VLA模型的规模!祝贺整个HAMSTER团队。」
1. 背景与挑战
在机器人操作中,收集真实环境下的演示数据成本往往极高,且对环境设置和硬件平台有很强依赖性。因此,若要实现开箱即用、跨平台的机器人操作能力,仅仅依靠本域数据远远不够。另一方面,近年快速发展的多模态大模型(VLM)在视觉与语言理解方面已展现较好泛化能力,可通过微调来适应机器人任务。然而,若让大模型直接输出低层动作信号,通常仍需海量且昂贵的机器人数据,并且在实时控制与不同硬件迁移上存在诸多难点。
HAMSTER 针对上述问题提出了一种层次化思路:让大模型只负责高层语义推断与大体轨迹生成,而将精细的动作控制交给低层模块来完成。这不仅能充分利用外部(域外)数据的丰富性,也能在跨平台环境下保持较强的可迁移性。
2. HAMSTER 的层次化方法
2.1 高层规划:VLM 生成二维路径
视频链接:https://mp.weixin.qq.com/s/yaMbDgEfmJ990cqcKofiVw
HAMSTER 的高层使用一个视觉 - 语言模型(VLM)来理解环境图像和语言指令,并输出 “二维路径” 这一中间表示。具体来说,二维路径记录了末端执行器在图像平面上的运动轨迹以及抓取器的开合状态。由于该表示与机器人具体关节、动力学特性无关,因而具备以下优势:
- 低歧义性、易标注:可以从视频、仿真或其他数据源中自动提取手部或末端执行器在图像中的运动轨迹。
- 跨平台适用性:二维路径不涉及具体硬件细节,高层模型在不同机械臂或移动平台上都能保持一致的输出形式。
- 丰富表达能力:二维路径不仅适用于简单的pick and place任务,还能扩展到诸如擦桌子、开抽屉、折毛巾、避障等更复杂的操作场景。
高层模型通过在大量 “域外” 数据上进行微调,学会将视觉与语言信息转化为合理的操作轨迹。域外数据包括可从互联网上获取的视频、仿真环境里机器人演示、以及其他机器人平台的历史数据等。这样一来,系统对真实机器人数据的需求量显著减少,却能在新环境和新任务中保持较好的泛化能力。
2.2 低层执行:基于路径的精细控制
视频链接:https://mp.weixin.qq.com/s/yaMbDgEfmJ990cqcKofiVw
得到高层输出的二维路径后,低层控制模块才会将其转化为实际的动作命令,包括抓取、放置等操作。低层通常结合少量本域机器人数据进行训练,学习如何在真实环境中根据三维信息实时调整,让执行轨迹与高层给出的二维路径对齐并完成任务目标。
这种 “高层规划 + 低层执行” 的分工,避免了端到端方案对昂贵数据的极度依赖,也利用了大模型的强泛化能力来处理更抽象和复杂的视觉与语言推理问题。
3. 实验设计与主要结果
视频链接:https://mp.weixin.qq.com/s/yaMbDgEfmJ990cqcKofiVw
研究团队在模拟环境与真实机器人平台上对 HAMSTER 进行了多组测试,涵盖多种类型的操作任务(如抓取、放置、推、按压等),并在不同的视觉和指令变化条件下,验证其泛化性能。
- 泛化能力:由于二维路径与硬件无关,同一高层 VLM 可以直接迁移到新的环境和硬件设置上,仅需对低层控制做少量适配;在视觉背景、光照条件以及语言指令多样化的测试中,HAMSTER 依然能够输出合理的路径规划。由于低层控制只需跟随高层 VLM 输出的二维轨迹,所以能将技能泛化到新的任务,对于各类环境变化的鲁棒性也更强。
- 数据效率:高层在海量域外数据上完成微调,而低层只需少量真实机器人演示数据,即可学到足够的执行能力,显著降低了对昂贵本域数据的需求。
- 任务成功率提升:与端到端大模型或传统模仿学习方法相比,HAMSTER 在多个复杂操作任务上的成功率平均提升约 20%~30%。在一些高难度场景如涉及新物体时,传统端到端模型成功率不到 20%,HAMSTER 可达 80% 左右。
- 推理速度与灵活度:高层只需在任务开始时或关键节点调用一次大模型来生成路径,避免了在每一步动作都调用大模型所带来的计算开销。在不牺牲精度的前提下,显著提升了系统执行效率和灵活性。
[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表炎黄立场。