¿Por qué, este benchmark en particular se considera inmune a la podredumbre de benchmark? ¿Por qué los laboratorios pueden atacar ARC-AGI, HLE, SWE-BENCH, etc., pero METR se considera seguro?