在OpenAI和Anthropic做过强化学习后,我可以说关于GRPO的事情: