RL для рассуждений часто полагается на проверяющих — отлично для математики, но сложно для креативного письма или открытых исследований.
Познакомьтесь с RARO: новой парадигмой, которая учит LLM рассуждать через противостоящие игры вместо верификации.
Без проверяющих. Без окружений. Только демонстрации. 🧵👇