P1: Освоение Олимпиад по физике с помощью обучения с подкреплением Комбинация масштабирования во время обучения с помощью RL после обучения и масштабирования во время тестирования с помощью агентной структуры на основе моделей Qwen3 для достижения золотой медали на последней Международной олимпиаде по физике. Ссылки ниже