Tendo feito RL na OpenAI e na Anthropic, aqui está o que posso dizer sobre o GRPO: