🚀 Esittelyssä SARM: Stage-Aware Reward Modeling for Long-Horizon Robot Manipulation Robotit kamppailevat tehtävien, kuten rypistyneen T-paidan taittamisen kanssa – pitkä, kontaktirikas ja vaikeasti tunnistettava. Ehdotamme skaalautuvaa palkitsemismallintamiskehystä tämän korjaamiseksi. 1/n