Więc, jak podejrzewaliśmy, nadzorowane dostrajanie było lobotomią. Cieszę się, że zostawiliśmy tę erę za sobą.
Aran Komatsuzaki
Aran Komatsuzaki5 wrz, 12:36
Razor RL: Uczenie się na polityce RL zapomina mniej niż SFT. Nawet przy dopasowanej dokładności, RL wykazuje mniejsze katastrofalne zapominanie. Kluczowy czynnik: aktualizacje on-policy w RL są ukierunkowane na rozwiązania minimalizujące KL. Teoria + LLM i eksperymenty z zabawkami potwierdzają, że RL pozostaje bliżej modelu bazowego.
12,18K