P1: Beheersing van de Natuurkunde Olympiades met Versterkend Leren Combinatie van trainingstijd-schaalvergroting via RL na training en testtijd-schaalvergroting via een agentisch kader bovenop Qwen3-modellen om een gouden medaille-prestatie te behalen op de laatste Internationale Natuurkunde Olympiade. Links hieronder