Lansarea depozitului meu GRPO V2: nano-grpo-reasoning-gym două schimbări majore (1) aceasta implementează în întregime stiva de antrenament grpo doar din pytorch/cod python foarte simplu - dar acum este extinsă pentru a folosi vLLM, nucleul liger și alte optimizări care fac mult mai rapidă antrenarea modelelor (2) este construit pe baza depozitului Reasoning Gym - și este construit exclusiv în minte pentru a antrena și evalua aceste medii de raționament Îmi place foarte mult să scriu lucruri de la zero pentru a obține o intuiție bună despre cum funcționează lucrurile și, de asemenea, multe dintre interesele mele de cercetare implică lucruri ciudate / mici în procesul de antrenament și mi se pare mult mai ușor de făcut pe un cod mai simplu Depozitul meu anterior a fost construit cu aceeași intenție - dar pentru a rămâne simplu în cele din urmă nu am avut nicio optimizare - așa că, deși a fost extrem de ușor să schimb lucrurile, a fost foarte lent și nepractic pentru alergări de antrenament mai serioase ca mulți oameni, am devenit mai interesat de modul în care modelele pot învăța în mai multe medii - sala de gimnastică de raționament oferă un set frumos standardizat de sarcini pentru a experimenta cu asta. Depozitul facilitează amestecarea diferitelor sarcini de raționament, antrenarea pe unele, evaluarea altora Pentru mine, este vorba despre a avea un sandbox rapid, dar simplu pentru a testa idei. Pentru alții ar putea fi util să înțelegeți cum funcționează GRPO/VLLM/LIGER în practică sau ca punct de plecare pentru propriile experimente Iată o primă alergare - antrenament pe leg_counting + family_relationships, evaluare pe cele + coin_flip Toate evaluările sunt făcute cu pass@1 probabilistice pentru 5 finalizări pe problemă, încă zgomotoase, desigur. Numărul de picioare obține +20% performanță, relația de familie + 35%, aruncarea monedei (+8%? Poate doar zgomot?) Link Github de mai jos