O RL é tão sensível a numéricos, da última vez a compilação do torch estava fazendo algumas execuções falharem, agora vllm v1.