🚀LLM:er kan lära sig direkt från muntlig feedback - inga skalära belöningar behövs! 😥Skalära belöningar komprimerar rik feedback - "överflödig men korrekt" vs "kortfattad men stavfelsfylld" kan båda vara 0,8 💡Vi föreslår att du lär dig Feedback-Conditional Policy (FCP), ett extremt skalbart paradigm!