Jadi, seperti yang kami duga, penyetelan halus yang diawasi adalah lobotomi. Senang kami meninggalkan era itu.
Aran Komatsuzaki
Aran Komatsuzaki5 Sep, 12.36
Pisau Cukur RL: RL pada kebijakan melupakan kurang dari SFT. Bahkan dengan akurasi yang cocok, RL menunjukkan kelupaan yang tidak terlalu parah Faktor kunci: RL memperbarui kebijakan Bias terhadap solusi KL-minimal Teori + LLM & eksperimen mainan mengkonfirmasi RL tetap lebih dekat dengan model dasar
12,18K