🚀 Presentamos SARM: Modelado de recompensas consciente de la etapa para la manipulación de robots de largo horizonte Los robots luchan con tareas como doblar una camiseta arrugada, larga, rica en contacto y difícil de etiquetar. Proponemos un marco de modelado de recompensas escalable para solucionar eso. 1/n