METR is niet 100% "veilig", maar het blijft een van de meest waardevolle benchmarks omdat het wordt uitgevoerd door een competente, goed uitgeruste team dat veel diverse taken omvat die niet openbaar beschikbaar zijn om op te trainen. Andere benchmarks kunnen 'bespeeld' worden door AIs die de antwoorden van tevoren kennen (opgelost door privé holdout sets) of door RL op de taken (opgelost door een diversiteit aan taken). ...Benchmarks kunnen ook op sommige manieren verstoord raken (bijv. de originele SWE-Bench voordat "SWE-Bench Verified" enkele per ongeluk onoplosbare problemen had). Ik denk dat verschillende benchmarks in niveaus passen. METR voelt als een gouden standaard Tier 1 evaluatie. ARC-AGI en FrontierMath zijn ook niet zo slecht, waarschijnlijk zoals Tier 2. SWE-Bench lijkt iets minder belangrijk om naar te kijken wanneer je al METR hebt. Ik wil wanhopig meer top benchmarks buiten wiskunde en techniek. Ik ben enthousiast over ARC-AGI-3 (de videogames versie).