🚀 Apresentando SARM: Modelagem de Recompensa Consciente do Estágio para Manipulação Robótica de Longo Prazo Os robôs têm dificuldades com tarefas como dobrar uma camiseta amassada—longas, ricas em contato e difíceis de rotular. Propomos uma estrutura de modelagem de recompensa escalável para resolver isso. 1/n