Нещодавно Prime-RL пройшов капітальний ремонт Docs, включаючи покрокове керівництво E2E з прикладами тренувань! Наприклад, тренування QWEN3-1.7b для переходу від 0% -> ~60% вінрейту в Wordle ENV @willccbb за допомогою кількох кроків розминки SFT і багатооборотного RL. Може працювати на одному графічному процесорі за кілька годин