P1: 通过强化学习掌握物理奥林匹克竞赛 结合训练时通过RL后训练的缩放和在Qwen3模型之上的代理框架进行测试时的缩放,以在最新的国际物理奥林匹克竞赛中获得金牌表现。 链接如下