RL-ul pentru raționament se bazează adesea pe verificatori — excelent pentru matematică, dar dificil pentru scriere creativă sau cercetare deschisă.
Faceți cunoștință cu RARO: un nou paradigm care învață LLM-urile să raționeze prin jocuri adversariale, în loc de verificare.
Fără verificatori. Fără medii. Doar demonstrații. 🧵👇