P1: 利用強化學習掌握物理奧林匹克 通過在 Qwen3 模型上進行 RL 後訓練的訓練時間縮放和基於代理的框架進行測試時間縮放的組合,以在最新的國際物理奧林匹克中實現金牌表現。 以下是鏈接