RL voor redeneren vertrouwt vaak op verifiers — geweldig voor wiskunde, maar lastig voor creatief schrijven of open onderzoek.
Maak kennis met RARO: een nieuw paradigma dat LLM's leert redeneren via adversaire spellen in plaats van verificatie.
Geen verifiers. Geen omgevingen. Gewoon demonstraties. 🧵👇