Pourquoi ce benchmark particulier est-il considéré comme immunisé contre la dégradation des benchmarks ? Comment se fait-il que les laboratoires puissent cibler ARC-AGI, HLE, SWE-bench, etc. mais que METR soit considéré comme sûr ?