prime-rl недавно обновил документацию, включая пошаговые инструкции по примерам обучения! например, обучение qwen3-1.7b для достижения 0% -> ~60% коэффициента побед в среде wordle @willccbb с использованием нескольких шагов sft разогрева и многоповоротного rl. можно запустить на одном gpu за несколько часов