Perché questo particolare benchmark è considerato immune al benchmark rot? Come mai i laboratori possono mirare a ARC-AGI, HLE, SWE-bench, ecc. ma METR è considerato sicuro?