🚀LLM-er kan lære direkte fra verbale tilbakemeldinger – ingen skalarbelønninger nødvendig! 😥Skalarbelønninger komprimerer rik tilbakemelding – «overflødig, men korrekt» vs «kortfattet, men skrivefeil» kan begge være 0,8 💡Vi foreslår å lære Feedback-Conditional Policy (FCP), et ekstremt skalerbart paradigme!