Grpo V2 -repon julkaiseminen: nano-grpo-reasoning-gym Kaksi suurta muutosta (1) Tämä toteuttaa kokonaan GRPO-koulutuspinon pelkästä Pytorch/Very Simple Python -koodista - mutta on nyt laajennettu käyttämään vLLM:ää, liger-ydintä ja muita optimointeja, jotka nopeuttavat mallien kouluttamista (2) se on rakennettu Reasoning Gym -repon päälle - ja se on rakennettu yksinomaan mielessä harjoittelemaan ja arvioimaan näitä päättelyympäristöjä Pidän todella asioiden kirjoittamisesta tyhjästä saadakseni hyvän intuition siitä, miten asiat toimivat, ja myös monet tutkimusintresseistäni liittyvät outojen/pienten asioiden tekemiseen koulutusprosessissa, ja minusta se on paljon helpompaa tehdä yksinkertaisemmalla koodilla Edellinen reponi rakennettiin samalla tarkoituksella - mutta pitääkseni sen viime kädessä yksinkertaisena minulla ei ollut oikeastaan mitään optimointeja - joten vaikka asioiden muuttaminen oli erittäin helppoa, se oli erittäin hidasta ja epäkäytännöllistä vakavammissa harjoitusajoissa kuten monet ihmiset, olen kiinnostunut enemmän siitä, miten mallit voivat oppia useissa ympäristöissä - Reasoning Gym tarjoaa mukavan standardoidun tehtäväsarjan tämän kokeilemiseen. Repon avulla on helppo sekoittaa erilaisia päättelytehtäviä, harjoitella joihinkin, eval-tehtäviin toisiin Minulle tässä on kyse nopeasta mutta yksinkertaisesta hiekkalaatikosta ideoiden testaamiseen. Toisille voi olla hyödyllistä ymmärtää, miten GRPO/VLM/liger toimii käytännössä, tai lähtökohtana omille kokeillesi Tässä on ensimmäinen juoksu - harjoittelu leg_counting + family_relationships, Eval niillä + coin_flip Kaikki evalit tehdään todennäköisyyspohjaisella pass@1 5 täydennyksellä per ongelma, edelleen meluisaa tietenkin. Jalkamäärä saa +20 % suorituskyvyn, perhesuhteet + 35 %, kolikonheitto (+8 %? Ehkä vain melua?) Github-linkki alla