π₀:基于VLM的多任务具身操作基础模型
π₀是基于一种新颖的流匹配架构,该架构建立在预训练的视觉语言模型(VLM)之上。这种方法使模型能够继承互联网规模的语义知识,并有效地执行复杂和高度灵活的机器人控制任务。模型利用预训练的VLM主干,利用从大规模数据中获得的广泛知识、语义推理和问题解决能力。该架构采用流匹配(diffusion的一种变体),以表示复杂的连续动作分布。这使得模型能够生成高频率的动作块(高达50 Hz),适用于灵巧的操作任务。
23 赞
踩
推荐
资讯
热榜
自荐
动态
有红包