🚀 I LLM possono apprendere direttamente dai feedback verbali — non sono necessari premi scalari! 😥 I premi scalari comprimono feedback ricchi— “ridondante ma corretto” vs “conciso ma pieno di errori di battitura” potrebbero entrambi essere 0.8 💡 Proponiamo di apprendere la Politica Condizionale da Feedback (FCP), un paradigma estremamente scalabile!