🚀Los LLM pueden aprender directamente de la retroalimentación verbal, ¡no se necesitan recompensas escalares! 😥Las recompensas escalares comprimen la retroalimentación rica: "redundante pero correcto" frente a "conciso pero lleno de errores tipográficos" podrían ser 0.8 💡Proponemos aprender la Política Condicional de Retroalimentación (FCP), ¡un paradigma extremadamente escalable!