¿Por qué se considera que este punto de referencia en particular es inmune a la degradación de los puntos de referencia? ¿Cómo es que los laboratorios pueden apuntar a ARC-AGI, HLE, SWE-bench, etc., pero METR se considera seguro?