Dlaczego ten konkretny wskaźnik jest uważany za odporny na degradację wskaźników? Jak to możliwe, że laboratoria mogą celować w ARC-AGI, HLE, SWE-bench itd., ale METR jest uważany za bezpieczny?