OpenAIとAnthropicでRLを行ったので、GRPOについて言えることは以下の通りです。