Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
publikuję moje repozytorium grpo v2: nano-grpo-reasoning-gym
dwie duże zmiany (1) to repozytorium całkowicie implementuje stos treningowy grpo z użyciem tylko pytorch/bardzo prostego kodu w Pythonie - ale teraz zostało rozszerzone o vLLM, jądro liger i inne optymalizacje, które znacznie przyspieszają trening modeli
(2) jest zbudowane na bazie repozytorium reasoning gym - i zostało stworzone wyłącznie z myślą o trenowaniu i ocenie w tych środowiskach rozumowania
naprawdę lubię pisać rzeczy od podstaw, aby dobrze zrozumieć, jak działają, a także wiele moich zainteresowań badawczych polega na robieniu dziwnych/małych rzeczy w procesie treningowym, i uważam, że znacznie łatwiej jest to robić na prostszym kodzie
moje poprzednie repozytorium zostało zbudowane z tym samym zamiarem - ale aby zachować to ostatecznie proste, nie miałem żadnych optymalizacji, więc chociaż było niezwykle łatwe do zmiany, było bardzo wolne i niepraktyczne dla poważniejszych sesji treningowych
jak wielu ludzi, stałem się bardziej zainteresowany tym, jak modele mogą uczyć się w wielu środowiskach - reasoning gym zapewnia ładny, ustandaryzowany zestaw zadań do eksperymentowania z tym. repozytorium ułatwia mieszanie różnych zadań rozumowania, trenowanie na niektórych, ocenianie na innych
dla mnie chodzi o posiadanie szybkiego, ale prostego piaskownicy do testowania pomysłów. dla innych może być przydatne do zrozumienia, jak grpo/vllm/liger działają w praktyce, lub jako punkt wyjścia do własnych eksperymentów
oto pierwsze uruchomienie - trening na leg_counting + family_relationships, ocena na tych + coin_flip
Wszystkie oceny są przeprowadzane z probabilistycznym pass@1 dla 5 zakończeń na problem, wciąż hałaśliwe, oczywiście.
Liczba nóg zyskuje +20% wydajności, relacja rodzinna + 35%, rzut monetą (+8%? Może to tylko hałas?)
Link do Githuba poniżej




Najlepsze
Ranking
Ulubione

