Por que, esse benchmark em particular é considerado imune à podridão do benchmark? Por que laboratórios podem mirar ARC-AGI, HLE, SWE-bench, etc., mas o METR é considerado seguro?