P1: Opanowanie Olimpiad Fizycznych z wykorzystaniem Uczenia przez Wzmocnienie Połączenie skalowania w czasie treningu za pomocą RL po treningu oraz skalowania w czasie testu za pomocą ramy agentowej na modelach Qwen3, aby osiągnąć złoty medal na ostatniej Międzynarodowej Olimpiadzie Fizycznej. Linki poniżej