在OpenAI和Anthropic做過強化學習後,這是我對GRPO的看法: