VisualMimic consente la loco-manipolazione umana tramite sim-to-real. Utilizzando la visione egocentrica, un tracker di keypoint a basso livello e una politica ad alto livello raggiungono il trasferimento zero-shot per compiti come la spinta di scatole, generalizzando attraverso luoghi e condizioni di illuminazione.