Habiendo trabajado en RL en OpenAI y Anthropic, esto es lo que puedo decir sobre GRPO: