P1: Dominando as Olimpíadas de Física com Aprendizagem por Reforço Combinação de escalonamento em tempo de treino via RL pós-treinamento e escalonamento em tempo de teste via estrutura agente sobre modelos Qwen3 para alcançar desempenho de medalha de ouro na mais recente Olimpíada Internacional de Física. Links abaixo