RL för resonemang förlitar sig ofta på verifierare – utmärkt för matematik, men knepigt för kreativt skrivande eller öppen forskning.
Möt RARO: ett nytt paradigm som lär LLM:er att resonera via adversariespel istället för verifiering.
Inga verifierare. Inga miljöer. Bara demonstrationer. 🧵👇