¡prime-rl ha recibido recientemente una renovación de documentación que incluye recorridos e2e de ejemplos de entrenamiento! por ejemplo, entrenar qwen3-1.7b para pasar de 0% -> ~60% de tasa de victorias en el entorno wordle de @willccbb utilizando un par de pasos de calentamiento sft y rl de múltiples turnos. se puede ejecutar en una sola gpu en unas pocas horas