Prime-RL fick nyligen en dokumentöversyn inklusive E2E-genomgångar av träningsexempel! Till exempel kan du träna Qwen3-1.7B för att gå från 0 % -> ~60 % vinstfrekvens i @willccbb:s Wordle ENV med hjälp av ett par steg av SFT-uppvärmning och Multi-Turn RL. Kan köras på en enda GPU på några timmar