如果我们能够从一张图像中,在野外实时模拟一个*互动的3D世界*呢? 介绍PointWorld-1B:一个大型预训练的3D世界模型,能够根据RGB-D捕捉和机器人动作预测环境动态。 🌐 来自@Stanford @nvidia