🚀LLM:t voivat oppia suoraan suullisesta palautteesta – skalaaripalkkioita ei tarvita! 😥Skalaaripalkkiot pakkaavat rikasta palautetta – "tarpeeton mutta oikea" vs. "ytimekäs mutta kirjoitusvirheet" voivat molemmat olla 0,8 💡Ehdotamme opettelemaan Feedback-Conditional Policy (FCP), erittäin skaalautuvaa paradigmaa!