prime-rl ha recentemente subito un aggiornamento della documentazione, inclusi walkthrough e2e di esempi di addestramento! ad esempio, addestrare qwen3-1.7b per passare da 0% a ~60% di tasso di vittoria nell'ambiente wordle di @willccbb utilizzando un paio di passaggi di sft warmup e rl multi-turno. può essere eseguito su una singola gpu in poche ore