RL för resonemang förlitar sig ofta på verifierare – utmärkt för matematik, men knepigt för kreativt skrivande eller öppen forskning. Möt RARO: ett nytt paradigm som lär LLM:er att resonera via adversariespel istället för verifiering. Inga verifierare. Inga miljöer. Bara demonstrationer. 🧵👇