🚀LLM's kunnen direct leren van verbale feedback — geen scalare beloningen nodig! 😥Scalare beloningen comprimeren rijke feedback— "overbodig maar correct" vs "bondig maar vol typfouten" kunnen beide 0.8 zijn 💡We stellen voor om Feedback-Conditionele Beleid (FCP) te leren, een extreem schaalbaar paradigma!