P1: Опанування олімпіад з фізики з підкріпленням навчання Поєднання масштабування часу тренування через RL після тренування та масштабування часу тестування через агентний фреймворк на базі моделей Qwen3 для досягнення золотих медалей на останній Міжнародній олімпіаді з фізики. Посилання нижче