Släpper min GRPO v2 repo: nano-grpo-resonemang-gym Två stora förändringar (1) Den här implementerar helt och hållet Grpo-träningsstacken från bara PyTorch/Very Simple Python-kod - men har nu utökats till att använda vLLM, liger-kärnan och andra optimeringar som gör det mycket snabbare att träna modeller (2) Den är byggd ovanpå Reasoning Gym-repo - och är byggd enbart i åtanke för att träna och utvärdera på dessa resonemangsmiljöer Jag gillar verkligen att skriva saker från grunden för att få en bra intuition för hur saker fungerar, och även många av mina forskningsintressen handlar om att göra konstiga/små saker i träningsprocessen, och jag tycker att det är mycket lättare att göra på enklare kod mitt tidigare repo byggdes med samma avsikt - men för att hålla det enkelt i slutändan hade jag inga optimeringar egentligen - så även om det var extremt enkelt att ändra på saker och ting, var det väldigt långsamt och opraktiskt för mer seriösa träningskörningar Som många andra har jag blivit mer intresserad av hur modeller kan lära sig i flera miljöer - Reasoning Gym tillhandahåller en trevlig standardiserad uppsättning uppgifter för att experimentera med detta. Repo gör det enkelt att blanda olika resonemangsuppgifter, träna på vissa, utvärdera på andra För mig handlar det om att ha en snabb men enkel sandlåda för att testa idéer. För andra kan det vara bra att förstå hur Grpo/VLLM/Liger fungerar i praktiken, eller som utgångspunkt för egna experiment Här är en första löprunda - träning på leg_counting + family_relationships, eval på de + coin_flip Alla utvärderingar görs med probabilistisk pass@1 för 5 slutföranden per problem, fortfarande bullrigt förstås. Benräkning får +20 % prestanda, familjerelation + 35 %, slantsingling (+8 %? Kanske bara oväsen?) Github länk nedan