P1: Physik-Olympiaden mit Reinforcement Learning meistern Kombination von Training-Skalierung über RL nach dem Training und Test-Skalierung über ein agentisches Framework auf Basis der Qwen3-Modelle, um eine Goldmedaille bei der neuesten Internationalen Physik-Olympiade zu erreichen. Links unten