新闻中心

“最强具身VLA大模子”事实强正在哪儿？

　　让机械人持续一成天制做意式浓缩咖啡，数小时不间断折叠各类衣物，还能精准拆卸工场所需的包拆纸箱。然而，细心阅读论文就会发觉，比起连做13个小时咖啡，π*0。6实正的冲破正在于引入了一种更曲觉的进修方式——Recap：π*0。6延续了Physical Intelligence此前一贯的VLA（视觉-言语-动做模子）线，是本年四月份发布π0。5以来最新的VLA模子。一方面，实正在机械人数据极端异构：包罗人类示范、专家干涉、以及机械人正在分歧策略下的施行轨迹。尺度的策略梯度方式需要on-policy的新颖数据，难以无效接收这些汗青夹杂数据，因而天然不适合具身场景。另一方面，VLA模子基于Flow Matching生成持续动做，这类模子没有显式的log π(as)，导致无保守策略那样对间接求梯度。模子仍按监视进修体例锻炼，但额外给它一个输入，告诉它当前动做的劣势值（advantage）。劣势越高，代表“这个动做更值得仿照”。换句话说，RECAP用价值函数判断动做质量，再用劣势前提化把本来需要RL求解的策略更新，从头写成了大模子最擅长的监视进修问题。为了让模子从异构数据中进修，起首需要锻炼一个可以或许识别“黑白”的价值函数。无论数据来自哪里（演示或自从测验考试），处置过程如下：计较经验报答：对每条轨迹，并归一化、离散化成201个区间，锻炼分布式价值函数：用多使命分布式价值函数预测离散价值分布，通过最小化交叉熵丧失进行锻炼，再提取持续价值函数，获得每个形态-动做的现实价值。计较劣势（advantage）：用动做的现实报答减去价值函数预测，获得劣势值，并二值化构成高/差劲势目标，做为策略锻炼的额外输入，指导模子选择更优动做。充实操纵多样化的离策略数据：包罗最后的人类示范、专家干涉，以及机械人自从施行的轨迹（既有最新策略的，也有晚期策略的）。可扩展性：方式需要可以或许使用于大型VLA模子，包罗那些利用流婚配（flow matching）或扩散（diffusion）生成动做的模子。同时操纵好坏数据：既要无效操纵近似最优的动做，也要操纵次优动做的数据，这对于通过自从经验提拔策略特别主要。通过这种设想，RECAP成功地正在不依赖高贵正在线PPO更新的环境下，操纵夹杂质量的离线数据实现了机械人的进化。正在模子架构方面，π0。6延续了π0π0。5架构，通过流婚配（flow matching）和离散动做token 输出生成动做片段。从尝试来看，研究团队正在三个高难度的现实使命中评估了模子：折叠多样化的衣物、拆卸纸箱（工场）和制做浓缩咖啡。正在最难的使命（如折叠多样化衣物和制做咖啡）中，RECAP将使命的吞吐量（每小时成功次数）提高了一倍以上，比拟于仅进行监视微调（SFT）的模子，RECAP将使命失败率降低了约2倍。取此同时，模子表示出极高的不变性，例如持续13小时制做咖啡、持续2小时折叠衣物而无需报酬沉置。俗话说“失败乃成功之母”，但正在保守的仿照进修，迫近实值或最优解凡是被认为是最间接、最无效的策略。正在LLM等生成静态输出的AI系统中，监视进修假设数据是同分布（i。i。d。），预测输出不会影响后续输入，因而偶尔的误差不会带来致命问题。仿照进修中模子的每一次动做城市影响将来形态，一旦呈现轻细错误，就可能进入锻炼数据未笼盖的新形态，从而触发滚雪球式误差。这些错误叠加后，使命可能完全失败。处理之道正在于：让视觉-言语-动做（VLA）模子可以或许从本身现实犯过的错误中进修，就像人类通过不竭改正失误一样。问题正在于，这些履历该若何标注？若是简单地让模子复制过去的行为，它只会学会反复错误。环节是若何从“坏数据”中提炼出无效的锻炼信号。锻练式纠偏（corrections）当机械人犯错时，专家通过遥操做介入，示范若何恢复、若何更好地完成使命。机械人需要按照一个回合的总体成果自行判断其行为的黑白，并迭代地进修施行好的行为，同时避免坏的行为。如上文所说，为了实现强化进修，焦点正在于处理信用分派（credit assignment）的问题。这里，Recap通过锻炼一个价值函数（value function）来应对这一挑和，它能够预测当前形态相较于其他形态的好坏。举例来说，正在典范的格子世界中，智能体味通过一次次测验考试更新每个形态的价值：落正在好格子上，价值提高；掉进坏格子里，价值降低。举例来说，正在折叠衣服使命中（左图），红色区域暗示机械人俄然将衣服拉起的错误动做，对应价值下降；而绿色区域暗示机械人准确完成折叠时，价值上升。能够说，价值函数帮帮机械人识别“环节步调”取“错误来历”，让它实正具备正在复杂实正在中从经验中变强的能力。这种劣势前提化（advantage-conditioned）锻炼可以或许让模子正在保留全数经验的前提下，从失败中进修，从而表示超越纯真示范数据的程度。综上，Recap不只让机械人学会了施行使命，更主要的是，为后续复杂使命的鲁棒性和效率提拔供给了可扩展的处理方案。取此同时，若是从好数据（示范）少，坏数据（错误经验）多的视角来看，π*0。6 的冲破可能更具深远意义 ——它证了然机械人能从实正在施行中收集的 “不完满经验” 里，提炼出高效的进修信号，这也为后续机械人研究斥地了全新思！