🚀Los LLMs pueden aprender directamente de la retroalimentación verbal — ¡no se necesitan recompensas escalares! 😥Las recompensas escalares comprimen la retroalimentación rica— “redundante pero correcta” vs “concisa pero llena de errores tipográficos” podrían ser ambas 0.8 💡Proponemos aprender la Política Condicional de Retroalimentación (FCP), ¡un paradigma extremadamente escalable!