VisualMimic permet la loco-manipulation humanoïde via la simulation à la réalité. En utilisant une vision égocentrique, un suiveur de points clés de bas niveau et une politique de haut niveau, il atteint un transfert zéro-shot pour des tâches comme le déplacement de boîtes, en se généralisant à travers différents emplacements et conditions d'éclairage.