P1:強化学習による物理オリンピアードの習得 強化学習後のトレーニング時間スケーリングと、Qwen3モデル上にエージェントフレームワークを用いたテストタイムスケーリングを組み合わせ、最新の国際物理オリンピックで金メダルを獲得しました。 以下のリンク