Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Grpo V2 -repon julkaiseminen: nano-grpo-reasoning-gym
Kaksi suurta muutosta (1) Tämä toteuttaa kokonaan GRPO-koulutuspinon pelkästä Pytorch/Very Simple Python -koodista - mutta on nyt laajennettu käyttämään vLLM:ää, liger-ydintä ja muita optimointeja, jotka nopeuttavat mallien kouluttamista 
(2) se on rakennettu Reasoning Gym -repon päälle - ja se on rakennettu yksinomaan mielessä harjoittelemaan ja arvioimaan näitä päättelyympäristöjä
Pidän todella asioiden kirjoittamisesta tyhjästä saadakseni hyvän intuition siitä, miten asiat toimivat, ja myös monet tutkimusintresseistäni liittyvät outojen/pienten asioiden tekemiseen koulutusprosessissa, ja minusta se on paljon helpompaa tehdä yksinkertaisemmalla koodilla
Edellinen reponi rakennettiin samalla tarkoituksella - mutta pitääkseni sen viime kädessä yksinkertaisena minulla ei ollut oikeastaan mitään optimointeja - joten vaikka asioiden muuttaminen oli erittäin helppoa, se oli erittäin hidasta ja epäkäytännöllistä vakavammissa harjoitusajoissa
kuten monet ihmiset, olen kiinnostunut enemmän siitä, miten mallit voivat oppia useissa ympäristöissä - Reasoning Gym tarjoaa mukavan standardoidun tehtäväsarjan tämän kokeilemiseen. Repon avulla on helppo sekoittaa erilaisia päättelytehtäviä, harjoitella joihinkin, eval-tehtäviin toisiin
Minulle tässä on kyse nopeasta mutta yksinkertaisesta hiekkalaatikosta ideoiden testaamiseen. Toisille voi olla hyödyllistä ymmärtää, miten GRPO/VLM/liger toimii käytännössä, tai lähtökohtana omille kokeillesi
Tässä on ensimmäinen juoksu - harjoittelu leg_counting + family_relationships, Eval niillä + coin_flip
Kaikki evalit tehdään todennäköisyyspohjaisella pass@1 5 täydennyksellä per ongelma, edelleen meluisaa tietenkin.
Jalkamäärä saa +20 % suorituskyvyn, perhesuhteet + 35 %, kolikonheitto (+8 %? Ehkä vain melua?)
Github-linkki alla




Johtavat
Rankkaus
Suosikit

