Poté, co jsem absolvoval RL v OpenAI a Anthropic, mohu o GRPO říci toto: