🚀Os LLMs podem aprender diretamente a partir de feedback verbal — não são necessárias recompensas escalares! 😥As recompensas escalares comprimem feedback rico — “redundante mas correto” vs “conciso mas cheio de erros de digitação” podem ambos ser 0.8 💡Propomos aprender a Política Condicional de Feedback (FCP), um paradigma extremamente escalável!