Prime-RL fikk nylig en Docs-overhaling inkludert E2E-gjennomganger av treningseksempler! For eksempel å trene QWEN3-1.7B til å gå fra 0 % til > ~60 % gevinstrate i @willccbb Wordle ENV ved å bruke et par trinn med SFT-oppvarming og multi-turn RL. Kan kjøre på en enkelt GPU på noen få timer