Melepaskan repo GRPO v2 saya: nano-grpo-reasoning-gym
Dua perubahan besar (1) yang ini sepenuhnya mengimplementasikan tumpukan pelatihan GRPO hanya dari kode Pytorch / Python yang sangat sederhana - tetapi sekarang diperluas untuk menggunakan vLLM, kernel liger dan pengoptimalan lain yang membuatnya jauh lebih cepat untuk melatih model
(2) dibangun di atas repositori gym penalaran - dan dibangun semata-mata untuk berlatih dan mengevaluasi lingkungan penalaran ini
Saya sangat suka menulis hal-hal dari awal untuk mendapatkan intuisi yang baik tentang cara kerjanya, dan juga banyak minat penelitian saya melibatkan melakukan hal-hal aneh / kecil pada proses pelatihan, dan saya merasa jauh lebih mudah untuk melakukannya pada kode yang lebih sederhana
Repo saya sebelumnya dibuat dengan niat yang sama - tetapi agar tetap sederhana, saya tidak memiliki pengoptimalan apa pun - jadi meskipun sangat mudah untuk mengubah segalanya, itu sangat lambat dan tidak praktis untuk latihan yang lebih serius
seperti banyak orang, saya menjadi lebih tertarik pada bagaimana model dapat belajar di berbagai lingkungan - gym penalaran menyediakan serangkaian tugas standar yang bagus untuk bereksperimen dengan ini. Repo memudahkan untuk mencampur tugas penalaran yang berbeda, melatih beberapa, menghidupkan yang lain
Bagi saya ini tentang memiliki kotak pasir yang cepat namun sederhana untuk menguji ide. Untuk orang lain mungkin berguna untuk memahami cara kerja GRPO/VLLM/LIGER dalam praktik, atau sebagai titik awal untuk eksperimen Anda sendiri
Inilah lari pertama - Pelatihan pada leg_counting + family_relationships, Eval pada itu + coin_flip
Semua eval dilakukan dengan pass@1 probabilistik untuk 5 penyelesaian per masalah, tentu saja masih berisik.
Jumlah kaki mendapat +20% kinerja, hubungan keluarga + 35%, lemparan koin (+8%? Mungkin hanya kebisingan?)
Tautan Github di bawah ini