🚀 Apresentando o SARM: Modelagem de Recompensa Sensível ao Estágio para Manipulação de Robôs de Longo Horizonte Os robôs lutam com tarefas como dobrar uma camiseta amassada - longa, rica em contato e difícil de rotular. Propomos uma estrutura de modelagem de recompensa escalável para corrigir isso. 1/n