Điều gì sẽ xảy ra nếu chúng ta có thể mô phỏng một *thế giới 3D tương tác*, từ một hình ảnh duy nhất, trong môi trường tự nhiên, theo thời gian thực? Giới thiệu PointWorld-1B: một mô hình thế giới 3D lớn đã được huấn luyện trước, dự đoán động lực môi trường dựa trên việc ghi lại RGB-D và các hành động của robot. 🌐 từ @Stanford @nvidia