🚀 Vă prezentăm SARM: Modelarea recompensei în funcție de scenă pentru manipularea roboților la orizont lung Roboții se luptă cu sarcini precum împăturirea unui tricou mototolit - lung, bogat în contacte și greu de etichetat. Propunem un cadru scalabil de modelare a recompenselor pentru a remedia acest lucru. 1/n