O RL para raciocínio muitas vezes depende de verificadores — ótimo para matemática, mas complicado para escrita criativa ou pesquisa aberta.
Conheça o RARO: um novo paradigma que ensina LLMs a raciocinar através de jogos adversariais em vez de verificação.
Sem verificadores. Sem ambientes. Apenas demonstrações. 🧵👇