P1: Dominar las Olimpiadas de Física con Aprendizaje por Refuerzo Combinación de escalado en tiempo de tren mediante posentrenamiento RL y escalado en tiempo de prueba mediante marco agentico sobre modelos Qwen3 para lograr una medalla de oro en la última Olimpiada Internacional de Física. Enlaces a continuación