🚀LLMs können direkt aus verbalen Rückmeldungen lernen – keine skalaren Belohnungen erforderlich! 😥Skalare Belohnungen komprimieren reichhaltige Rückmeldungen – „redundant, aber korrekt“ vs. „prägnant, aber voller Tippfehler“ könnten beide 0,8 sein. 💡Wir schlagen vor, die Feedback-Conditional Policy (FCP) zu lernen, ein extrem skalierbares Paradigma!