P1: Å mestre fysikkolympiader med forsterkningslæring Kombinasjon av treningstidsskalering via RL etter trening og testtidsskalering via agentisk rammeverk på toppen av Qwen3-modeller for å oppnå gullmedaljeprestasjoner under den siste internasjonale fysikkolympiaden. Lenker nedenfor