mijn grpo v2 repo vrijgeven: nano-grpo-reasoning-gym twee grote veranderingen (1) deze implementeert volledig de grpo trainingsstack met alleen pytorch/zeer eenvoudige python code - maar is nu uitgebreid om vLLM, de liger-kernel en andere optimalisaties te gebruiken die het veel sneller maken om modellen te trainen (2) het is gebouwd bovenop de reasoning gym repo - en is uitsluitend bedoeld om te trainen en te evalueren op deze redeneeromgevingen ik vind het echt leuk om dingen vanaf nul te schrijven om een goed inzicht te krijgen in hoe dingen werken, en ook veel van mijn onderzoeksinteresses houden in dat ik vreemde/kleine dingen met het trainingsproces doe, en ik vind het veel gemakkelijker om dat te doen met eenvoudigere code mijn vorige repo was gebouwd met dezelfde bedoeling - maar om het uiteindelijk eenvoudig te houden had ik eigenlijk geen optimalisaties - dus hoewel het extreem gemakkelijk was om dingen te veranderen, was het erg traag en onpraktisch voor serieuzere trainingsruns zoals veel mensen ben ik meer geïnteresseerd geraakt in hoe modellen kunnen leren in meerdere omgevingen - reasoning gym biedt een mooie gestandaardiseerde set taken om mee te experimenteren. de repo maakt het gemakkelijk om verschillende redeneertaken te mixen, op sommige te trainen, op anderen te evalueren voor mij gaat dit om het hebben van een snelle maar eenvoudige sandbox om ideeën te testen. voor anderen kan het nuttig zijn om te begrijpen hoe grpo/vllm/liger in de praktijk werken, of als een startpunt voor je eigen experimenten hier is een eerste run - trainen op leg_counting + family_relationships, evalueren op die + coin_flip Alle evaluaties worden gedaan met probabilistische pass@1 voor 5 voltooiingen per probleem, nog steeds ruisachtig natuurlijk. Legtelling krijgt +20% prestatie, familie relatie + 35%, coin flip (+8%? Misschien gewoon ruis?) Github-link hieronder