rilascio il mio repo grpo v2: nano-grpo-reasoning-gym
due grandi cambiamenti (1) questo implementa interamente il stack di addestramento grpo solo con pytorch/codice python molto semplice - ma ora è esteso per utilizzare vLLM, il kernel liger e altre ottimizzazioni che rendono molto più veloce l'addestramento dei modelli
(2) è costruito sopra il repo reasoning gym - ed è costruito esclusivamente per addestrare e valutare in questi ambienti di ragionamento
mi piace davvero scrivere cose da zero per avere una buona intuizione su come funzionano, e anche molti dei miei interessi di ricerca coinvolgono fare cose strane/piccole nel processo di addestramento, e trovo molto più facile farlo su codice più semplice
il mio precedente repo è stato costruito con la stessa intenzione - ma per mantenerlo alla fine semplice non avevo davvero ottimizzazioni - quindi mentre era estremamente facile cambiare le cose, era molto lento e impraticabile per addestramenti più seri
come molte persone, sono diventato più interessato a come i modelli possono apprendere in più ambienti - il reasoning gym fornisce un bel set standardizzato di compiti su cui sperimentare. il repo rende facile mescolare diversi compiti di ragionamento, addestrare su alcuni, valutare su altri
per me si tratta di avere un sandbox veloce ma semplice per testare idee. per altri potrebbe essere utile capire come funzionano grpo/vllm/liger nella pratica, o come punto di partenza per i propri esperimenti
ecco un primo run - addestramento su leg_counting + family_relationships, valutazione su questi + coin_flip
Tutte le valutazioni sono fatte con probabilistic pass@1 per 5 completamenti per problema, ancora rumoroso ovviamente.
Il conteggio delle gambe ottiene +20% di prestazioni, la relazione familiare + 35%, coin flip (+8%? Forse solo rumore?)
Link di Github qui sotto