P1: Bemästra fysikolympiader med förstärkningsinlärning Kombination av träningstidsskalning via RL efter träning och testtidsskalning via agentisk ramverk ovanpå Qwen3-modeller för att uppnå guldmedalj vid den senaste internationella fysikolympiaden. Länkar nedan