🚀 Представляємо SARM: моделювання винагороди з урахуванням етапів для маніпулювання роботами на довгому горизонті Роботи борються із завданнями на кшталт складання зім'ятої футболки — довгої, багатоконтактної та важкодоступної для маркування. Щоб виправити це, ми пропонуємо масштабовану структуру моделювання винагород. 1/п