Dette er litt det jeg vil kunne trene modeller med hvis det er slik det høres ut som - Du vil være sånn "Nei, ikke kall en asynkron metode på den måten, det vil forårsake xy z-problem" eller noe, og det lærer, men jeg må grave i dette for å se om det virkelig er det det er?
🚀LLM-er kan lære direkte fra verbale tilbakemeldinger – ingen skalarbelønninger nødvendig!
😥Skalarbelønninger komprimerer rik tilbakemelding – «overflødig, men korrekt» vs «kortfattet, men skrivefeil» kan begge være 0,8
💡Vi foreslår å lære Feedback-Conditional Policy (FCP), et ekstremt skalerbart paradigme!