Prime-RL a primit recent o revizuire a documentelor, inclusiv prezentări E2E ale exemplelor de antrenament! De exemplu, antrenarea QWEN3-1.7B să meargă de la 0% -> ~60% rată de câștig în Wordle Env de la @willccbb folosind câțiva pași de încălzire SFT și RL cu mai multe ture. Poate rula pe un singur GPU în câteva ore