RL es muy sensible a los numéricos, la última vez torch compile estaba haciendo que algunas ejecuciones fallaran, ahora vllm v1