METR ist nicht 100% "sicher", aber es bleibt einer der wertvollsten Benchmarks, da es von einem kompetenten, gut ausgestatteten Team betrieben wird, das viele verschiedene Aufgaben umfasst, die nicht öffentlich verfügbar sind, um darauf zu trainieren. Andere Benchmarks können von AIs "ausgetrickst" werden, die die Antworten im Voraus kennen (gelöst durch private Holdout-Sets) oder RL bei den Aufgaben durchführen (gelöst durch eine Vielfalt von Aufgaben). ...Benchmarks können auch in gewisser Weise durcheinander geraten (z. B. hatte das ursprüngliche SWE-Bench vor "SWE-Bench Verified" einige versehentlich unlösbare Probleme). Ich denke, verschiedene Benchmarks passen in verschiedene Stufen. METR fühlt sich wie eine Goldstandard Tier 1 Bewertung an. ARC-AGI und FrontierMath sind auch nicht so schlecht, wahrscheinlich wie Tier 2. SWE-Bench scheint weniger wichtig zu sein, wenn man bereits METR hat. Ich wünsche mir dringend mehr Top-Benchmarks außerhalb von Mathematik und Ingenieurwesen. Ich bin gespannt auf ARC-AGI-3 (das mit den Videospielen).