🚀LLM-urile pot învăța direct din feedback-ul verbal - nu este nevoie de recompense scalare! 😥Recompensele scalare comprimă feedback-ul bogat - "redundant, dar corect" vs "concis, dar plin de greșeli de scriere" ar putea fi ambele 0,8 💡Ne propunem să învățăm Feedback-Politica Condiționată (FCP), o paradigmă extrem de scalabilă!