METR ei ole 100 % "turvallinen", mutta se on yksi arvokkaimmista vertailuarvoista, koska sitä pyörittää pätevä ja hyvin resursoitu tiimi, joka kattaa monia erilaisia tehtäviä, joita ei julkisesti voi kouluttaa. Muita testejä voidaan 'pelata' tekoälyjen tietämällä vastaukset etukäteen (ratkaistu yksityisillä holhoutusryhmillä) tai tekemällä RL:ää tehtävissä (ratkaistaan monipuolisilla tehtävillä). ... Testit voivat myös jollain tavalla mennä sekaisin (esim. alkuperäinen SWE-Bench ennen "SWE-Bench Verifiedia" aiheutti vahingossa ratkaisemattomia ongelmia). Uskon, että eri benchmarkit sopivat tasoihin. METR tuntuu kultastandardilta Tier 1 -arvioinnilta. ARC-AGI ja FrontierMath eivät myöskään ole niin huonoja, luultavasti kuten Tier 2. SWE-Bench vaikuttaa hieman vähemmän tärkeältä, kun sinulla on jo METR. Haluan kipeästi lisää huipputason vertailukohtia matematiikan ja insinööritieteiden ulkopuolelta. Olen innoissani ARC-AGI-3:sta (videopeliversio).