P1: Dominando las Olimpiadas de Física con Aprendizaje por Refuerzo Combinación de escalado en tiempo de entrenamiento a través de RL post-entrenamiento y escalado en tiempo de prueba mediante un marco agente sobre los modelos Qwen3 para lograr un rendimiento de medalla de oro en la última Olimpiada Internacional de Física. Enlaces a continuación