Pisau Cukur RL: RL pada kebijakan melupakan kurang dari SFT. Bahkan dengan akurasi yang cocok, RL menunjukkan kelupaan yang tidak terlalu parah Faktor kunci: RL memperbarui kebijakan Bias terhadap solusi KL-minimal Teori + LLM & eksperimen mainan mengkonfirmasi RL tetap lebih dekat dengan model dasar
103,12K