publikuję moje repozytorium grpo v2: nano-grpo-reasoning-gym dwie duże zmiany (1) to repozytorium całkowicie implementuje stos treningowy grpo z użyciem tylko pytorch/bardzo prostego kodu w Pythonie - ale teraz zostało rozszerzone o vLLM, jądro liger i inne optymalizacje, które znacznie przyspieszają trening modeli (2) jest zbudowane na bazie repozytorium reasoning gym - i zostało stworzone wyłącznie z myślą o trenowaniu i ocenie w tych środowiskach rozumowania naprawdę lubię pisać rzeczy od podstaw, aby dobrze zrozumieć, jak działają, a także wiele moich zainteresowań badawczych polega na robieniu dziwnych/małych rzeczy w procesie treningowym, i uważam, że znacznie łatwiej jest to robić na prostszym kodzie moje poprzednie repozytorium zostało zbudowane z tym samym zamiarem - ale aby zachować to ostatecznie proste, nie miałem żadnych optymalizacji, więc chociaż było niezwykle łatwe do zmiany, było bardzo wolne i niepraktyczne dla poważniejszych sesji treningowych jak wielu ludzi, stałem się bardziej zainteresowany tym, jak modele mogą uczyć się w wielu środowiskach - reasoning gym zapewnia ładny, ustandaryzowany zestaw zadań do eksperymentowania z tym. repozytorium ułatwia mieszanie różnych zadań rozumowania, trenowanie na niektórych, ocenianie na innych dla mnie chodzi o posiadanie szybkiego, ale prostego piaskownicy do testowania pomysłów. dla innych może być przydatne do zrozumienia, jak grpo/vllm/liger działają w praktyce, lub jako punkt wyjścia do własnych eksperymentów oto pierwsze uruchomienie - trening na leg_counting + family_relationships, ocena na tych + coin_flip Wszystkie oceny są przeprowadzane z probabilistycznym pass@1 dla 5 zakończeń na problem, wciąż hałaśliwe, oczywiście. Liczba nóg zyskuje +20% wydajności, relacja rodzinna + 35%, rzut monetą (+8%? Może to tylko hałas?) Link do Githuba poniżej