🚀Les LLMs peuvent apprendre directement à partir de retours verbaux — aucune récompense scalaire n'est nécessaire ! 😥Les récompenses scalaires compressent des retours riches — "redondant mais correct" contre "concise mais truffée de fautes" peuvent tous deux être à 0,8 💡Nous proposons d'apprendre la Politique Conditionnelle de Retour (FCP), un paradigme extrêmement évolutif !