DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Brendan Hogan

rilascio il mio repo grpo v2: nano-grpo-reasoning-gym due grandi cambiamenti (1) questo implementa interamente il stack di addestramento grpo solo con pytorch/codice python molto semplice - ma ora è esteso per utilizzare vLLM, il kernel liger e altre ottimizzazioni che rendono molto più veloce l'addestramento dei modelli (2) è costruito sopra il repo reasoning gym - ed è costruito esclusivamente per addestrare e valutare in questi ambienti di ragionamento mi piace davvero scrivere cose da zero per avere una buona intuizione su come funzionano, e anche molti dei miei interessi di ricerca coinvolgono fare cose strane/piccole nel processo di addestramento, e trovo molto più facile farlo su codice più semplice il mio precedente repo è stato costruito con la stessa intenzione - ma per mantenerlo alla fine semplice non avevo davvero ottimizzazioni - quindi mentre era estremamente facile cambiare le cose, era molto lento e impraticabile per addestramenti più seri come molte persone, sono diventato più interessato a come i modelli possono apprendere in più ambienti - il reasoning gym fornisce un bel set standardizzato di compiti su cui sperimentare. il repo rende facile mescolare diversi compiti di ragionamento, addestrare su alcuni, valutare su altri per me si tratta di avere un sandbox veloce ma semplice per testare idee. per altri potrebbe essere utile capire come funzionano grpo/vllm/liger nella pratica, o come punto di partenza per i propri esperimenti ecco un primo run - addestramento su leg_counting + family_relationships, valutazione su questi + coin_flip Tutte le valutazioni sono fatte con probabilistic pass@1 per 5 completamenti per problema, ancora rumoroso ovviamente. Il conteggio delle gambe ottiene +20% di prestazioni, la relazione familiare + 35%, coin flip (+8%? Forse solo rumore?) Link di Github qui sotto

Principali

Ranking

Preferiti