🚀 Presentamos SARM: Modelado de Recompensas Consciente del Estado para la Manipulación Robótica a Largo Plazo Los robots tienen dificultades con tareas como doblar una camiseta arrugada: son largas, ricas en contacto y difíciles de etiquetar. Proponemos un marco de modelado de recompensas escalable para solucionar eso. 1/n