METR není stoprocentně "bezpečný", ale zůstává jedním z nejcennějších benchmarků, protože jej provozuje kompetentní, dobře financovaný tým, který zahrnuje mnoho různých úkolů, na které není veřejně dostupné pro trénink. Další benchmarky lze 'obelstít' tím, že AI znají odpovědi předem (vyřeší je soukromé holdout sety) nebo provedou RL na úkolech (řeší se rozmanitostí úkolů). ... Benchmarky mohou být také v některých ohledech narušené (například původní SWE-Bench před "SWE-Bench Verified" měl některé nechtěně neřešitelné problémy). Myslím, že různé benchmarky zapadají do úrovní. METR působí jako zlatý standard hodnocení Tier 1. ARC-AGI a FrontierMath také nejsou tak špatné, pravděpodobně jako Tier 2. SWE-Bench se zdá být méně důležitý, když už máte METR. Zoufale chci mít víc špičkových výsledků mimo matematiku a inženýrství. Těším se na ARC-AGI-3 (ten videoherní).