我们最近尝试对一个 VLA 进行微调,以执行一个简单的任务,但它的表现比从头训练的 10M 参数 ACT 模型还要差。 配方中缺少了一些东西。我们正在努力找出是什么。这就是我们还没有发布 moonvla 的原因。忽略那些炒作。