Почему этот конкретный бенчмарк считается устойчивым к деградации бенчмарков? Как так получается, что лаборатории могут нацеливаться на ARC-AGI, HLE, SWE-bench и т.д., но METR считается безопасным?